Ciência de Dados e Engenharia de Dados são 2 diferentes ramos de atuação dentro do conceito de Big Data e as funções de Cientista de Dados e Engenheiro de Dados são normalmente confundidas, principalmente pelos recrutadores. As descrições de posições de trabalho normalmente misturam ambas as funções ou exigem que o profissional tenha os conhecimentos de Data Science e Data Engineering.
Cientista de Dados
Se ciência é um método sistemático utilizado para estudar e explicar um fenômeno de conhecimento específico, a Ciência de Dados é o domínio científico dedicado à descoberta de conhecimento através da análise de dados.
Cientistas de Dados utilizam técnicas matemáticas e algoritmos para encontrar soluções de problemas de negócio ou científico. Seja na área de negócios ou científica, as análises dos cientistas de dados permitem melhorar a capacidade de decisão através de dados. Na área de negócios, o cientista de dados pode prover às organizações informações dos dados que podem otimizar os processos, maximizar a eficiência, compreender o cliente e aumentar a lucratividade. Na ciência, o cientista de dados pode desenvolver análises que permitam detectar doenças, entender seu comportamento e encontrar curas através da ampla comparação de dados.
Para que um profissional possa ser considerado Cientista de Dados, é necessário que ele tenha experiência e conhecimento em matemática e estatística, programação de computadores utilizando linguagens de programação como R ou Python e conhecimento sobre uma área específica (Marketing, Finanças, Vendas, Redes Sociais).
Um Cientista de Dados pode:
• Utilizar de Machine Learning para otimizar a pesquisa de dados
• Otimizar de estratégias para alcançar os objetivos de negócio
• Análise preditiva para prever futuros lucros ou prejuízos no negócio
• Detectar fraudes ou anomalias na operação do negócio
• Compreender a razão de variações extremas na análise de dados
• Através da estatística, prever os próximos cliques de um usuário em um site de compras
Engenheiro de Dados
Se a Engenharia é a prática de utilizar ciência e tecnologia para criar e construir sistemas que resolvem problemas, podemos definir a Engenharia de Dados como sendo a área da Engenharia dedicada a processar e tratar dados para aplicações que utilizarão Big Data. Engenheiros de Dados utilizam conhecimento em ciência da computação para criar sistemas e resolver problemas de processamento de dados em tempo real e manipular quantidade imensas de dados para o Big Data. Engenheiro de Dados tem experiência com plataformas de Massively Parallel Processing (MPP) assim como banco de dados relacionais e normalmente utilizam linguagens de programação como Java, C++ ou Python. Eles sabem como implementar Hadoop e MapReduce para refinar, processar e reduzir o tempo de processamento de grandes quantidades de dados.
O propósito do Engenheiro de Dados, é fornecer soluções e plataformas de Big Data modulares e escaláveis para que os Cientistas de Dados possam fazer seu trabalho de análise.
Um Engenheiro de Dados pode:
• Construir aplicações de larga escala SaaS (Software as a Service)
• Construir e customizar aplicações Hadoop e MapReduce
• Definir e construir bancos de dados relacionais com arquitetura distribuída para processamento de Big Data
• Extrair, transformar e carregar (ETL) dados de um banco de dados para outro
David Matos
2 thoughts on “Cientista de Dados x Engenheiro de Dados”
Comments are closed.