A ciência de dados é um método para coletar insights de dados estruturados e não estruturados usando abordagens que vão desde a análise estatística até o machine learning.
Para a maior parte das organizações, a ciência de dados é empregada para transformar dados em valor, transformando-os em receita aprimorada, custos reduzidos, agilidade nos negócios, melhor experiência do cliente, desenvolvimento de novos produtos, entre outros.
“A quantidade de dados que a empresa pode pegar é imensa, mas se não estiver fazendo nada com isso, transformando-o em algo interessante, não adianta. A ciência de dados significa dar a esses dados um propósito”, diz Adam Hunt, cientista chefe de dados da RiskIQ.
Ciência de dados vs analytics
A análise de dados é geralmente vista como um componente da ciência de dados, usada para entender como são os dados de uma organização. A ciência de dados usa analytics para resolver problemas.
“A ciência de dados está chegando a conclusões que levam os dados adiante. Se a pessoa não está resolvendo um problema com dados, está apenas fazendo uma investigação, isso é apenas uma análise. A ciência de dados tem mais a ver com a resolução de problemas do que com analytics, o exame e a plotagem de dados”, diz Hunt.
Ciência de dados vs big data
A ciência de dados e o big data geralmente são vistos como conceitos conectados, mas os cientistas de dados não trabalham apenas com big data. A ciência de dados pode ser usada para extrair valor de dados de todos os tamanhos, sejam eles estruturados, não estruturados ou semi-estruturados.
Big data é útil para as equipes de ciência de dados em muitos casos, porque quanto mais dados estiver disponíveis, mais parâmetros serão incluídos em um determinado modelo. “Big data ajuda em certos aspectos, mas nem sempre é melhor. Por exemplo, o mercado de ações não funciona em uma linha, então não vai funcionar”, comenta o executivo.
Valor comercial da ciência de dados
O valor comercial da ciência de dados depende da organização que está usando-a. Ela pode ajudar a criar ferramentas para prever falhas de hardware, permitindo que a empresa realize a manutenção e evite o tempo de inatividade. Pode ser usado para prever o que colocar nas prateleiras dos supermercados, ou quão popular um produto será baseado em seus atributos.
“O maior valor que uma equipe de ciência de dados pode ter é quando eles são incorporados a equipes de negócios. Uma pessoa inovadora vai encontrar valor que outras pessoas não esperavam”, diz Ted Dunning, arquiteto chefe de aplicações da MapR Technologies.
Ferramentas de ciência de dados
As equipes fazem uso de uma ampla gama de ferramentas, incluindo SQL, Python, R, Java e uma infinidade de projetos de código aberto, como Hive, oozie e TensorFlow. Essas ferramentas são usadas para tarefas relacionadas a dados, desde extrair e limpar dados, até submeter dados a análises algorítmicas via métodos estatísticos ou inteligência artificial.
De acordo com Dunning, o cientista de dados precisa olhar criticamente para aspectos muito simples dos dados. “O profissional precisa de boas ferramentas de visualização. Ferramentas de programação – o Python é um favorito das probabilidades neste momento. São necessárias, também, ferramentas que realmente construirão modelos interessantes”, diz Dunning.
Salários de cientistas de dados
Confira alguns dos cargos mais populares relacionados à ciência de dados e o salário médio (anual) para cada posição, de acordo com dados da PayScale:
Gerente de análise: US$ 82 mil a US$ 120 mil
Analista de inteligência de negócios: US$ 55 mil a US$ 81 mil
Analista de dados: US$ 45 mil a US$ 68 mil
Arquiteto de dados: US$ 75 mil a US$ 152 mil
Engenheiro de dados: US$ 63 mol a US$ 131 mil
Cientista de dados: US$ 79 mil a US$ 120 mil
Analista de pesquisa: US$ 43 mil a US$ 63 mil
Cientista de pesquisa: US$ 58 mil a US $ 97 mil
Estatístico: US$ 58 mil a US$ 90 mil
Habilidades em ciência de dados
A ciência de dados é uma área em evolução e há muitas maneiras de aprender sobre ela. Porém, ainda que o número de programas de graduação em ciência de dados esteja aumentando rapidamente, eles não são necessariamente o que as organizações procuram quando buscam cientistas de dados.
O Stange-Tregear, do eBates, diz que busca candidatos com histórico de estatísticas, conhecimento de domínio para contextualizar resultados e habilidades de comunicação que lhes permitam comunicar resultados a usuários corporativos.
“Eu sou inclinado para pessoas que têm PhDs, mas eu não deixaria de lado alguém que tem muita experiência”, diz Hunt. “Um PhD é capaz de fazer uma pesquisa muito profunda sobre um tópico e é capaz de disseminar essa informação para os outros. Mas ter um sólido background ou projeto pessoal é incrivelmente interessante.”
Hunt diz que ele, particularmente, procura por PhDs em física, matemática, ciência da computação, economia ou ciências sociais. Ainda que ele não dispense candidatos com graduação em ciência de dados ou análise, ele tem reservas. “Minha experiência pessoal é que eles são muito úteis, mas eles se concentram muito nas operações dos modelos e não na mentalidade do processo”.
Dunning se importa mais com a capacidade do candidato de mostrar algo novo. “O que eu mais levo em conta é: o entrevistado me ensinou alguma coisa? Eu não quero encontrar pessoas que saibam como fazer o que eu também sei. Eu quero encontrar pessoas que pudessem fazer coisas que eu não pudesse fazer, ou que ensinassem coisas para o time”, explica.
Para Dunning, alguns dos melhores cientistas de dados ou líderes em grupos de ciência de dados têm origens não tradicionais. Ele cita, por exemplo, algumas pessoas que já passaram pela empresa e trabalharam como jardineiro antes de ir para a faculdade, outra com um diploma de literatura francesa e ainda outra que era estudante de jornalismo, com pouco treinamento formal em informática.
Fonte: Computerworld
02 de julho de 2018