5 passos para você iniciar sua jornada na área de Data Science - Diolinux - O modo Linux e Open Source de ver o Mundo.

Responsive Ad Slot

5 passos para você iniciar sua jornada na área de Data Science

Hora de ingressar no mundo do Data Science, confira os 5 passos para começar a fazer os seus primeiros projetos

sexta-feira, 15 de dezembro de 2017

/ por Dionatan Simioni
Você já deve ter ouvido falar sobre Data Science, Big Data e monte de termos aí relacionados com Inteligência Artificial.  Diante disso, cada vez mais pessoas estão interessadas em se tornar profissionais dessas áreas. Mas como começar?

Data Science





Comece com o básico


Se você ainda não conhece nada de Data Science provavelmente vai ficar confuso com tantos termos e conceitos novos.

O ideal é começar se inteirar do assunto para saber por qual caminho seguir. De preferência comece procurando conteúdo português, assim você vai minimizar a curva de aprendizado, uma das boas opções para encontrar conteúdo no nosso idioma é o blog Minerando Dados. Lá você irá encontrar artigos técnicos sobre Machine Learning, Manipulação de Dados, Análise de Dados, Conceitos e tarefas do dia a dia de um Cientista de Dados, é bacana pra quem está começando do zero.

Obviamente você vai encontrar muito material em inglês, isso não deve ser um empecílio

Disciplinas fundamentais


Como tudo que é novo requer estudo para ser feito de forma mais eficaz, estudar disciplinas que são a base para essas tecnologias é fundamental. 

Por exemplo, saber o básico sobre Matemática e Estatística já vai ser muito importante na hora de entender como os algoritmos funcionam. Em seguida, pesquise sobre linguagens de programação mais usadas, quais as melhores ferramentas utilizadas pelos profissionais e principalmente como instalar em sua distribuição Linux predileta, a maior parte desses projetos que podem ter um alto fator de escalonamento roda em Linux.

Linguagens Python ou R


R vs Python

Pesquise quais são as linguagens de programação e plataformas mais utilizadas em projetos nessa área. 

Por exemplo, se você gosta de Python já está um passo a frente, pois, uma grande parcela dos projetos de Data Science utilizam essa linguagem como principal.

O Python além de ser uma linguagem conhecida entre os desenvolvedores, também é muito bem aceita na comunidade acadêmica. Além de robusta e muito amigável, existem diversas bibliotecas prontas para trabalhar com Data Science. Veja aqui um exemplo de manipulação de dados utilizando uma biblioteca poderosa e perceba o poder dessa linguagem.

Essa linguagem por ser bastante difundida, se tornou um sucesso nessa área tanto pela sua capacidade, tanto pela sua simplicidade.

Outra linguagem que de grande peso nessa área é o R. O R é uma linguagem estatística muito usada na comunidade acadêmica, além disso, o R contém muitas bibliotecas e pacotes prontos para utilização. Bibliotecas para cálculos matemáticos, visualização de dados, processamento entre outras.

Por ser uma linguagem muito simples, tem se tornado uma linguagem bastante utilizada em projetos de Data Science. Isso levou o R a não ser mais uma linguagem somente utilizada na academia.

Então qual escolher? Python ou R?

Eu sugiro que você escolha a que mais lhe agradar. Realmente vai depender do projeto. Não tente estudar as duas linguagens de uma vez, você vai acabar perdido com tanta informação.

Recomendo fortemente que você escolha a linguagem que mais lhe interessa e estude ela.

Aprenda Machine Learning


Machine Learning

Não dá pra falar de Data Science sem falar de Machine Learning.

Machine Learning ou "Aprendizado de Máquina" é uma área que vem crescendo muito e está cada vez mais presente no nosso dia a dia. Um exemplo interessante é: 

Como o Google consegue classificar e-mails com “spam” para milhares de contas de e-mail? E vamos combinar que raramente ele erra né ? 

Conhecer sobre Machine learning é fundamental para qualquer Cientista de Dados, mas você não precisa conhecer e saber utilizar todos os algoritmos logo de cara. 

Para começar, escolha alguns algoritmos mais utilizados e procure aprender como eles funcionam e já está de ótimo tamanho.

Abaixo temos exemplos de tarefas que utilizam Machine Learning e que existem diversos artigos, tutoriais e livros disponíveis para você aprender sobre os algoritmos gratuitamente:

- Análise de Sentimentos: Essa tarefa é muito utilizada aplicando Machine Learning em textos, onde se quer que o algoritmo aprenda a classificar em positivo, negativo ou neutros dados de teste.

- Predição de Valores: Essa tarefa normalmente utiliza algoritmos de Machine Learning que utilizam regressão para aprender padrões e predizer valores. Um exemplo muito conhecido seria predizer preços de imóveis de uma região.

- Agrupamento de Dados: Algoritmos que fazem agrupamento de dados utilizam Machine Learning para descobrir informações semelhantes nos dados as quais permitem criar grupos similares. Uma aplicação desse tipo de algoritmo é um banco que quer agrupar clientes em categorias sem ter que definir critérios muito bem estabelecidos para isso.

- Reconhecimento de Imagens: Esta é uma tarefa muito bem utilizada pelo Facebook. A rede social utiliza algoritmos de Machine Learning para identificar rostos das pessoas através das fotos.

Os exemplos mencionados acima são muito utilizados hoje em dia, isso mostra que Machine Learning veio para ficar e a tendência é que teremos cada vez mais soluções utilizando essa tecnologia. 

Colocando a "mão da massa"!


A melhor forma de aprender algo é colocando em prática. Mas como começar ? 

Bom, uma ótima forma de começar a aprender sobre essas tecnologias é buscando bases de dados gratuitas e praticando em projetos pequenos. Um site muito interessante é o Kaggle, neste você pode fazer download de diversas bases de dados gratuitamente e começar a brincar com os dados.

Como mencionei no início, para quem quiser baixar material em português e encontrar bases de dados para download, juntamente com códigos gratuitos, pode encontrar no Minerando Dados.

Além do blog que citei acima, segue outras fontes de estudo para você conferir, aprecie sem moderação :)

  1. Blogs sobre Data Science:
  2. Python: Python Brasil
  3. Estatística: Statitics.org

Espero que esse artigo tenha te ajudado na caminhada para iniciar na área de Data Science!

Agradeço ao Rodrigo Santana Ferreira pela colaboração com o texto.

Até a próxima!

_____________________________________________________________________________
Viu algum erro ou gostaria de adicionar alguma sugestão a essa matéria? Colabore, clique aqui.


Blog Diolinux © all rights reserved
made with by templateszoo