James Le escreveu um ótimo artigo em inglês com dicas preciosas para aqueles que aspiram trabalhar como Cientistas de Dados. São dicas preciosas e trago aqui no meu blog o artigo completo traduzido para português. São 16 Conselhos Para Aspirantes a Cientistas de Dados. Confira.
Por que a Ciência de Dados é sexy? Tem algo a ver com tantas novas aplicações e novas indústrias que surgem do uso criterioso de grandes quantidades de dados. Exemplos incluem reconhecimento de fala, reconhecimento de objetos em visão computacional, robôs e carros autônomos, bioinformática, neurociência, a descoberta de exoplanetas e uma compreensão das origens do universo, e até mesmo a montagem de times de beisebol baratos, mas vencedores. Em cada um desses casos, o Cientista de Dados é peça central para toda a empresa. Ele/ela deve combinar o conhecimento da área de aplicação com o conhecimento estatístico e implementá-lo usando as últimas novidades em ciência da computação.
No final, a sensualidade se resume a ser eficaz. Recentemente li “Data Scientists at Work”, de Sebastian Gutierrez, em que ele entrevistou 16 Cientistas de Dados de 16 setores diferentes para entender como eles pensam teoricamente e também de forma prática, quais problemas eles estão resolvendo, como os dados estão ajudando e o que é preciso para ser bem sucedido. Todos os 16 entrevistados estão na vanguarda da compreensão e extração de valor dos dados em uma variedade de tipos de organizações, públicas e privadas – de startups e empresas maduras a grupos de pesquisa primários e organizações humanitárias sem fins lucrativos – e em diversos setores – publicidade, e-commerce, e-mail marketing, computação em nuvem corporativa, moda, internet industrial, televisão e entretenimento na internet, música, neurobiologia, jornais e mídia, redes profissionais e sociais, varejo, inteligência de vendas e capital de risco.
Em particular, Sebastian fez perguntas abertas para que as personalidades e os processos de pensamento espontâneo de cada entrevistado brilhassem com clareza e precisão. Os praticantes deste livro compartilham seus pensamentos sobre o que a ciência dos dados significa para eles e como eles pensam sobre isso, suas sugestões sobre como ingressar na área e sua sabedoria obtida através da experiência sobre o que um Cientista de Dados deve entender profundamente para ter sucesso.
Neste post, quero compartilhar as melhores respostas que esses Cientistas de Dados deram para a pergunta:
“Que conselho você daria para alguém que está começando em Ciência de Dados?”
1 – Chris Wiggins, Cientista de Dados Chefe do The New York Times e Professor Associado de Matemática Aplicada na Columbia
“Criatividade e atenção. Você tem que realmente gostar de algo para estar disposto a pensar muito sobre isso por um longo tempo. Além disso, algum nível de ceticismo. Então, é uma coisa que eu gosto em estudantes de doutorado – cinco anos é tempo suficiente para você ter uma descoberta, e então para você perceber todas as coisas que você fez de errado ao longo do caminho. É ótimo para você, intelectualmente, ir e voltar de pensar em “fusão a frio” para perceber “Oh, eu realmente estraguei tudo”, e, assim, cometendo uma série de erros e consertando-os. Eu acho que o processo de passar por um PhD é útil para dar-lhe esse ceticismo sobre o que parece ser uma coisa certa, particularmente na pesquisa. Acho que isso é útil porque, caso contrário, você poderia rapidamente percorrer um caminho errado – só porque seu primeiro encontro com o caminho parecia tão promissor.
E embora seja uma resposta chata, a verdade é que você precisa ter profundidade técnica. A ciência de dados ainda não é um campo, portanto ainda não há credenciais. É muito fácil obter um entendimento em nível de Wikipédia sobre, digamos, aprendizado de máquina. Para realmente fazer isso, no entanto, você realmente precisa saber qual é a ferramenta certa para o trabalho certo e precisa ter uma boa compreensão de todas as limitações de cada ferramenta. Não há atalho para esse tipo de experiência. Você tem que cometer muitos erros. Você tem que se encontrar colocando um problema de classificação em um problema de clustering, ou um problema de clustering em um problema de teste de hipótese.
Uma vez que você se encontra experimentando algo, confiante de que é a coisa certa, então finalmente perceber que você estava totalmente errado, e experimentando isso muitas vezes – esse é realmente um nível de experiência que infelizmente não há um atalho. Você só precisa fazer isso e continuar cometendo erros, o que é outra coisa que eu gosto em pessoas que trabalham no campo há vários anos. Leva muito tempo para se tornar um especialista em algo. Leva anos de erros. Isso tem sido verdade por séculos. Há uma citação do famoso físico Niels Bohr, que afirma que a maneira como você se torna um especialista em um campo é cometer todos os erros possíveis nesse campo.”
2 – Caitlin Smallwood, Vice-Presidente de Ciência e Algoritmos da Netflix
“Eu diria que sempre se preocupe em entender os fundamentos dos dados antes de fazer qualquer outra coisa, mesmo que não seja sexy nem divertido. Em outras palavras, esforce-se para entender como os dados são capturados, entender exatamente como cada campo de dados é definido e entender quando os dados estão faltando. Se os dados estiverem faltando, isso significa algo por si só? Estão faltando apenas em certas situações? Essas pequenas e precárias armadilhas de dados realmente vão te ajudar. Elas realmente vão.
Você pode usar o algoritmo mais sofisticado sob o sol, mas você não pode fechar os olhos para os dados brutos, não importa o quão excitado esteja para chegar à parte divertida da modelagem. Pontue seus i’s, cruze seus t ‘s e verifique tudo o que puder sobre os dados antes de seguir o caminho do desenvolvimento de um modelo.
Outra coisa que aprendi ao longo do tempo é que uma mistura de algoritmos é quase sempre melhor do que um único algoritmo no contexto de um sistema, porque diferentes técnicas exploram diferentes aspectos dos padrões nos dados, especialmente em grandes conjuntos de dados complexos. Então, enquanto você pode pegar um algoritmo em particular e interagir e iterar para torná-lo melhor, eu quase sempre vi que uma combinação de algoritmos tende a fazer o trabalho melhor do que apenas um algoritmo.”
3 – Yann LeCun, Diretor de Pesquisa de IA no Facebook e Professor de Ciência de Dados / Ciência da Computação / Neurociência na NYU
“Eu sempre dou o mesmo conselho, já que recebo essa pergunta com frequência. Minha opinião é que, se você é estudante de graduação, estude uma especialidade em que possa fazer o máximo possível de cursos de matemática e física. E tem que ser os cursos certos, infelizmente. O que eu vou dizer vai soar paradoxal, mas as especializações em engenharia ou física provavelmente são mais apropriadas do que matemática, informática ou economia. Claro, você precisa aprender a programar, então você precisa ter um grande número de aulas de ciência da computação para aprender a mecânica de como programar. Então, mais tarde, faça um programa de pós-graduação em ciência de dados. Faça cursos de Machine Learning, IA ou Visão Computacional, porque você precisa se expor a essas técnicas. Então, depois disso, faça todos os cursos de matemática e física que você puder fazer. Especialmente os cursos de matemática aplicada, como otimização, porque eles preparam para o que é realmente desafiador.
Depende de onde você quer ir porque há muitos trabalhos diferentes no contexto da ciência de dados ou IA. As pessoas devem realmente pensar sobre o que querem fazer e depois estudar esses assuntos. Neste momento, o tema quente é o aprendizado profundo (Deep Learning), e o que isso significa é aprender e entender o trabalho clássico em redes neurais, aprender sobre otimização, aprender sobre álgebra linear e tópicos semelhantes. Isso ajuda você a aprender as técnicas matemáticas e os conceitos gerais que enfrentamos todos os dias.”
4 – Erin Shellman, Gerente de Dados da Zymergen, Ex-Data Scientist da Nordstrom Data Lab e AWS S3
“Para a pessoa que ainda está decidindo o que estudar, eu diria que os campos STEM (Science, Technology, Engineering, Mathematics) são fundamentais, e em particular os do TEM. Estudar um assunto STEM lhe dará ferramentas para testar e entender o mundo. É assim que vejo matemática, estatística e aprendizado de máquina. Eu não estou muito interessado em matemática, estou interessado em usar matemática para descrever as coisas. Esses conjuntos de ferramentas, afinal, mesmo que você não esteja empolgado em matemática ou estatísticas, ainda vale a pena investir neles e pensar em como aplicá-los nas coisas que realmente são importantes.
Para a pessoa que está tentando fazer a transição como eu fiz, eu diria que, por um lado, é difícil. Esteja ciente de que é difícil mudar de setor e você terá que trabalhar duro para isso. Isso não é exclusivo da ciência de dados – isso é vida. Não ter nenhuma conexão no campo é difícil, mas você pode trabalhar com encontros com pessoas generosas. Minha regra número um na vida é “acompanhamento”. Se você conversar com alguém que tenha algo que deseja, faça o acompanhamento.
Postagens para Cientistas de Dados podem ser bastante intimidadoras, porque a maioria delas é lida como um glossário de ciência de dados. A verdade é que a tecnologia muda tão rapidamente que ninguém possui experiência de tudo que possa ser escrito em uma postagem. Quando você olha para isso, pode ser esmagador, e você pode se sentir assim: “Isso não é para mim. Eu não tenho nenhuma dessas habilidades e não tenho nada para contribuir.
Eu encorajaria contra essa mentalidade, contanto que você esteja bem com a mudança e aprendendo coisas novas o tempo todo.
Em última análise, o que as empresas querem é uma pessoa que possa definir rigorosamente os problemas e criar caminhos para uma solução. Eles também querem pessoas que são boas em aprender. Eu acho que essas são as principais habilidades. ”
5 – Daniel Tunkelang, Pesquisador Chefe da Twiggle, Ex-Diretor de Qualidade de Pesquisa do LinkedIn
“Para alguém que vem da matemática ou das ciências físicas, sugiro investir na aprendizagem de habilidades em software – especialmente no Hadoop e no R, que são as ferramentas mais usadas. Alguém vindo de engenharia de software deve ter uma aula em aprendizado de máquina e trabalhar em um projeto com dados reais, muitos dos quais estão disponíveis gratuitamente. Como muitas pessoas disseram, a melhor maneira de se tornar um Cientista de Dados é fazer ciência de dados. Os dados estão por aí e a ciência não é tão difícil de aprender, especialmente para alguém treinado em matemática, ciências ou engenharia e, claro, que tenha vontade e disposição.
Leia “A Eficácia Irrazoável dos Dados” – um ensaio clássico dos pesquisadores do Google, Alon Halevy, Peter Norvig e Fernando Pereira. O ensaio geralmente é resumido como “mais dados superam os melhores algoritmos”. Vale a pena ler todo o ensaio, uma vez que ele fornece uma pesquisa sobre sucessos recentes no uso de dados em escala da web para melhorar o reconhecimento de fala e a tradução automática. Então, para uma boa medida, ouça o que Monica Rogati tem a dizer sobre como melhores dados superam mais dados. Entenda e internalize esses dois insights e você estará no caminho certo para se tornar um Cientista de Dados. ”
6 – John Foreman, Vice-Presidente de Gerenciamento de Produtos e Ex-Chefe de Dados da MailChimp
“Acho difícil encontrar e contratar as pessoas certas. É realmente uma coisa muito difícil de fazer, porque quando pensamos no sistema universitário, seja na graduação ou na pós-graduação, você se concentra em apenas uma coisa. Você é especialista. Mas os Cientistas de Dados são como o novo pessoal da Renascença, porque a ciência de dados é inerentemente multidisciplinar.
Isso é o que leva à grande piada de como um Cientista de Dados é alguém que conhece mais estatísticas do que um programador de computador e pode programar melhor do que um estatístico. O que essa piada está dizendo? Está dizendo que um Cientista de Dados é alguém que sabe um pouco sobre duas coisas. Mas eu diria que eles sabem mais do que apenas duas coisas. Eles também precisam saber se comunicar. Eles também precisam saber mais do que apenas estatísticas básicas; eles têm que saber probabilidade, análise combinatória, cálculo, etc.
Algumas costeletas de visualização não machucam. Eles também precisam saber como limpar dados, usar bancos de dados e talvez até mesmo um pequeno OR (o “ou” na lógica de programação). Há muitas coisas que eles precisam saber. E assim, torna-se realmente difícil encontrar essas pessoas, porque elas precisam ter tocado em muitas disciplinas e precisam ser capazes de falar sobre sua experiência de maneira inteligente. É uma tarefa difícil para qualquer candidato.
Leva muito tempo para contratar alguém, e é por isso que eu acho que as pessoas continuam falando sobre como não há talento suficiente para ciência de dados no momento. Eu acho que é verdade até certo ponto. Eu acho que alguns dos programas de graduação que estão começando vão ajudar. Mas mesmo assim, saindo desses programas de graduação, para o MailChimp, veríamos como você articula e nos comunica como você usou os conhecimentos da ciência de dados em muitas disciplinas que esse programa particular lhe ensinou. Isso é algo que vai eliminar muitas pessoas. Eu gostaria que mais programas se concentrassem no aspecto de comunicação e colaboração de ser um Cientista de Dados no local de trabalho. ”
7 – Roger Ehrenberg, Sócio-Gerente da IA Ventures
Eu acho que as áreas onde tem as maiores oportunidades também têm mais desafios. Os dados de assistência médica obviamente têm alguns dos maiores problemas e preocupações com privacidade. Além disso, você também tem burocracias escleróticas, infraestruturas fossilizadas e silos de dados que dificultam a resolução de problemas difíceis que exigem integração em vários conjuntos de dados. Isso vai acontecer, e acho que as tecnologias sobre as quais falamos aqui são diretamente relevantes para tornar a assistência médica melhor, mais acessível e mais distribuída. Eu vejo isso representando uma oportunidade geracional.
Outra grande área em seus primeiros dias é a gestão de risco – seja em finanças, comércio ou seguro. É um problema realmente difícil quando se trata de incorporar novos conjuntos de dados à avaliação de riscos – especialmente ao aplicar essas tecnologias a um setor como seguro, que, como os serviços de saúde, tem muitos problemas de privacidade e dados presos em grandes burocracias. Ao mesmo tempo, essas antigas empresas fossilizadas estão começando a se abrir e descobrir como interagir melhor com a comunidade de startups para alavancar novas tecnologias. Esta é outra área que eu acho incrivelmente emocionante.
A terceira área pela qual estou apaixonado é reformular a fabricação e torná-la mais eficiente. Tem havido uma tendência para a produção voltar a terra. Um setor industrial mais forte poderia ser uma ponte para recriar uma classe média vibrante nos EUA. Eu acho que a tecnologia pode ajudar a acelerar essa tendência benéfica.
8 – Claudia Perlich, Cientista Chefe da Dstillery
“Eu acho que, em última análise, aprender como fazer ciência de dados é como aprender a esquiar. Você tem que fazer. Você não pode só ouvir tantos vídeos e ver isso acontecer. No final do dia, você tem que pegar seus esquis e descer aquela colina. Você vai bater algumas vezes no caminho e está tudo bem. Essa é a experiência de aprendizado que você precisa. Na verdade, prefiro muito mais perguntar aos entrevistados sobre coisas que não foram bem, e não sobre o que funcionou, porque isso me diz o que aprenderam no processo.
Sempre que as pessoas vêm até mim e perguntam: “O que devo fazer?”, Digo: “Sim, claro, faça cursos on-line sobre técnicas de aprendizado de máquina. Não há dúvida de que isso é útil. Você claramente tem que ser capaz de programar, pelo menos um pouco. Você não precisa ser um programador Java, mas precisa fazer algo de alguma forma. Eu não me importo como.
Por fim, se é voluntário na DataKind gaste seu tempo em ONGs para ajudá-los, ou indo ao site da Kaggle e participando de algumas de suas competições de mineração de dados – apenas molhe as mãos e os pés. Especialmente no Kaggle, leia os fóruns de discussão sobre o que outras pessoas lhe dizem sobre o problema, porque é aí que você aprende o que as pessoas fazem, o que funcionou para elas e o que não funcionou para elas. Então, qualquer coisa que envolva você em algo com dados, mesmo que você não seja pago por isso, é uma ótima coisa.
Lembre-se, você tem que esquiar naquela colina. Não há maneira de contornar isso. Você não pode aprender de outra maneira. Então, ofereça seu tempo, suje as mãos de qualquer maneira que possa pensar, e se você tiver a chance de fazer estágios – perfeito. Caso contrário, existem muitas oportunidades em que você pode simplesmente começar. Então, faça.
9 – Jonathan Lenaghan, Diretor de Engenharia na Datadog
“Em primeiro lugar, é muito importante ser autocrítico: sempre questione suas suposições e seja paranóico com seus resultados. Essa é a parte fácil. Em termos de habilidades que as pessoas devem ter se realmente quiserem ter sucesso no campo da ciência de dados, é essencial ter boas habilidades de engenharia de software. Assim, mesmo que contratemos pessoas que vêm com pouca experiência em programação, trabalhamos muito para incutir nelas rapidamente a importância da engenharia, das práticas de engenharia e de muitas boas práticas de programação ágil. Isso é útil para eles e para nós, já que todos podem ser aplicados quase de um para um à ciência de dados agora.
Se você olhar para os Dev Ops, eles têm coisas como integração contínua, construção contínua, testes automatizados – tudo isso mapeia muito bem do mundo dos desenvolvedores para as operações de dados (uma frase que eu roubei do Red Monk). Eu acho que esta é uma noção muito poderosa. É importante ter estruturas de teste para todos os seus dados, para que, se você fizer uma alteração de código, possa voltar e testar todos os seus dados. Ter uma mentalidade de engenharia é essencial para se mover com alta velocidade no mundo da ciência de dados. O livro Code Complete e o The Pragmatic Programmer vão te levar muito além de ler livros de aprendizado de máquina – embora você, é claro, também tenha que ler os livros de aprendizado de máquina. ”
10 – Anna Smith, Engenheira Sênior de Dados na Spotify
“Se alguém está apenas começando em ciência de dados, a coisa mais importante a entender é que não há problema em fazer perguntas às pessoas. Eu também acho que a humildade é muito importante. Você precisa ter certeza de que não está preso ao que está fazendo. Você sempre pode fazer alterações e começar de novo. Ser capaz de desenvolver códigos, acho, é realmente difícil quando você está começando, mas o mais importante é simplesmente fazer alguma coisa.
Mesmo que você não tenha um emprego em ciência de dados, ainda é possível explorar conjuntos de dados no seu tempo livre e fazer perguntas simulando problemas de negócio. No meu tempo pessoal, brinquei com dados do Reddit. Eu me perguntei: “O que eu posso explorar sobre o Reddit com as ferramentas que eu tenho ou não tenho?” Isso é ótimo, porque uma vez que você começou, você pode ver como outras pessoas abordaram o mesmo problema. Basta usar seu instinto e começar a ler os artigos de outras pessoas e dizer: “Posso usar essa técnica na minha abordagem”. Comece devagar e vá devagar. Eu tentei ler muito quando comecei, mas acho que isso não é tão útil até que você realmente brinque com código e dados para entender como tudo realmente funciona, como se move. Quando as pessoas apresentam os conceitos em livros, tudo é legal e bonito. Na vida real, na verdade não é.
Eu acho que tentar muitas coisas diferentes também é muito importante. Eu acho que nunca pensei que estaria aqui. Eu também não tenho ideia de onde estarei daqui a cinco anos. Mas talvez seja assim que eu aprendo, fazendo um pouco de tudo em diferentes disciplinas para tentar entender o que melhor me serve.”
11 – Andre Karpistsenko, Líder em Ciência de Dados da Taxify, Co-Fundador e Líder de Pesquisa da PlanetOS
“Embora seja um conselho genérico, acredito que você deva confiar em si mesmo e seguir sua paixão. Acho que é fácil se distrair com as notícias na mídia e as expectativas apresentadas pela mídia e escolher uma direção que você não deseja seguir. Então, quando se trata de ciência de dados, você deve olhar como um ponto de partida para sua carreira. Ter este conhecimento será benéfico em qualquer coisa que você faça. Ter a capacidade de criar software e a capacidade de trabalhar com estatísticas permitirá que você tome decisões mais inteligentes em qualquer campo que escolher. Por exemplo, podemos ler sobre como o desempenho de um atleta é aprimorado por meio de dados, como alguém que se tornou medalhista de ouro no salto em distância, porque otimizaram e praticaram o ângulo no qual deveriam saltar. Tudo isso é liderado por uma abordagem baseada em dados para esportes.
Se eu fosse para um aconselhamento técnico mais específico, isso dependeria das ambições da pessoa que está recebendo o conselho. Se a pessoa quiser criar novos métodos e ferramentas, esse conselho seria muito diferente. Você precisa persistir e continuar indo em sua direção e terá sucesso. Mas se a sua intenção é ser diversificada e flexível em muitas situações, então você quer ter uma grande caixa de ferramentas de métodos diferentes.
Acho que o melhor conselho dado a mim foi dado por um professor de Stanford cujo curso frequentei há algum tempo. Ele recomendou ter um perfil de competência em forma de T, com uma pequena segunda competência ao lado da competência essencial, para que você tenha uma rota alternativa na vida, se precisar ou quiser. Além do conhecimento vertical da experiência em campo único, ele recomenda que você tenha a barra horizontal de planos de fundo ampla o suficiente para que você possa trabalhar com muitas pessoas diferentes em muitas situações diferentes. Então, enquanto você está em uma universidade, construir uma forma de T com outra pequena competência é provavelmente a melhor coisa a fazer.
Talvez o mais importante seja se cercar de pessoas maiores do que você e aprender com elas. Esse é o melhor conselho. Se você está em uma universidade, esse é o melhor ambiente para ver a diversidade de recursos das pessoas. Se você conseguir trabalhar com as melhores pessoas, terá sucesso em qualquer coisa.”
12 – Amy Heineike, Vice-Presidente de Tecnologia da PrimerAI, Ex-Diretora de Matemática da Quid
“Acho que talvez precisem começar a olhar para si mesmos e descobrir com o que realmente se importam. O que eles querem fazer? Neste momento, a ciência de dados é um tema quente, e eu acho que há muitas pessoas que pensam que, se puderem ter o rótulo de “Cientista de Dados”, magia, felicidade e dinheiro chegarão até eles. Então eu sugiro realmente descobrir quais partes da ciência de dados você realmente se importa. Essa é a primeira pergunta que você deve se fazer. E então você quer descobrir como ficar bom nisso. Você também quer começar a pensar sobre quais tipos de empregos estão por aí que realmente funcionam para o que você está interessado.
Uma estratégia é ir muito fundo em uma parte do que você precisa saber. Temos pessoas em nossa equipe que fizeram PhDs em processamento de linguagem natural ou que têm PhDs em física, onde usaram muitos métodos analíticos diferentes. Assim, você pode ir muito fundo em uma área e, em seguida, encontrar pessoas para quem esse tipo de problema é importante ou problemas semelhantes que você pode usar o mesmo tipo de pensamento para resolver. Então essa é uma abordagem.
Outra abordagem é apenas tentar coisas. Há muitos conjuntos de dados por aí. Se você está em um emprego e está tentando mudar de emprego, tente pensar se há dados que você poderia usar em sua função atual que você poderia obter e analisar de maneira interessante. Encontre uma desculpa para experimentar algo e ver se é isso mesmo que você quer fazer. Ou apenas use dados abertos. Basta dar uma olhada e ver o que você pode encontrar e, em seguida, começar a brincar com isso. Eu acho que é uma ótima maneira de começar. Há muitos papéis diferentes que estão sob o nome “Cientista de Dados” agora, e há também muitos papéis que provavelmente são o que você pensaria da ciência de dados. Pense no que você realmente quer.
13 – Victor Hu, Chefe de Ciência de Dados da QBE Insurance, Ex-Cientista de Dados da Next Big Sound
“Primeiro é que você definitivamente tem que contar uma história. No final do dia, o que você está fazendo é realmente investigar os fundamentos de como um sistema, organização ou indústria funciona. Mas para ser útil e compreensível para as pessoas, você tem que contar uma história.
Ser capaz de escrever sobre o que você faz e ser capaz de falar sobre o seu trabalho é muito crítico. Também vale a pena entender que você deve se preocupar menos com o algoritmo que está usando. Mais dados ou melhores dados melhoram um algoritmo razoável, então se você puder configurar uma maneira de analisar e obter muitos dados bons, limpos e úteis – ótimo! ”
14 – Kira Radinsky, Cientista Chefe e Diretora de Ciência de Dados no eBay, Ex-CTO e Co-Fundadora do SalesPredict
“Encontre um problema com o qual você esteja animado. Para mim, toda vez que eu começo algo novo, é muito chato apenas estudar sem ter um problema que estou tentando resolver. Comece a ler o material e, assim que puder, comece a trabalhar com ele e com o seu problema. Você começará a ver os problemas conforme avança. Isso o levará a outros recursos de aprendizado, sejam eles livros, documentos ou pessoas. Então, gaste tempo com o problema e com as pessoas, e você ficará bem.
Entenda o básico muito profundamente. Entenda algumas estruturas básicas de dados e ciência da computação. Entenda a base das ferramentas que você usa e entenda a matemática por trás delas, não apenas como usá-las. Entenda as entradas e as saídas e o que realmente está acontecendo por dentro, porque senão você não saberá quando aplicá-las. Além disso, depende do problema que você está enfrentando. Existem muitas ferramentas diferentes para tantos problemas diferentes. Você precisa saber o que cada ferramenta pode fazer e saber o problema que você está tentando resolver muito bem para saber quais ferramentas e técnicas aplicar.”
15 – Eric Jonas, Pós-Doutorado na UC Berkeley EECS, Ex-Chefe de Previsão de Cientistas da Salesforce
“Eles devem entender a teoria da probabilidade para frente e para trás. Eu estou no ponto agora, onde tudo que eu aprendo, eu mapeio de volta para a teoria da probabilidade. É ótimo porque fornece essa base incrível, profunda e rica, na qual eu posso projetar tudo o que está por aí. Há um livro de E. T. Jaynes chamado Teoria da Probabilidade: A Lógica da Ciência, e é a nossa bíblia. A razão pela qual eu gosto da abordagem generativa probabilística é que você tem esses dois eixos ortogonais – o eixo de modelagem e o eixo de inferência. O que basicamente se traduz em como eu expresso meu problema e como eu computo a probabilidade da minha hipótese de acordo com os dados. A coisa boa que eu gosto dessa perspectiva Bayesiana é que você pode projetar cada um desses eixos independentemente. Claro, eles não são perfeitamente independentes, mas podem não estar próximos o bastante para serem independentes, para que você possa tratá-los dessa maneira.
Quando eu olho para coisas como o aprendizado profundo ou qualquer tipo de sistema de regressão linear baseado no LASSO, que é muito do que conta como aprendizado de máquina hoje em dia, eles estão projetando ao longo de um eixo ou de outro. Eles meio que derrubaram isso. Usando essas técnicas baseadas em LASSO como engenheiro, torna-se muito difícil para mim pensar: “Se eu alterar esse parâmetro levemente, o que isso realmente significa?” A regressão linear como modelo tem um modelo gaussiano aditivo linear muito claro. Bem, e se eu quiser que as coisas pareçam diferentes? De repente, todas essas coisas regularizadas de mínimos quadrados desmoronam. A tecnologia de inferência simplesmente não aceita isso como uma coisa que você gostaria de fazer.”
16 – Jake Porwar, Fundador e Diretor Executivo da DataKind
“Acredito que um histórico estatístico forte é um pré-requisito, porque você precisa saber o que está fazendo e entender sobre o modelo que cria. Além disso, meu programa de estatísticas também ensinou muito sobre ética, algo sobre o qual nós pensamos muito no DataKind. Você sempre quer pensar em como seu trabalho será aplicado. Você pode dar a alguém um algoritmo. Você pode dar a alguém um modelo para usar dados de stop e frisk, onde a polícia fará prisões, mas por que e para que fim? É como construir qualquer nova tecnologia. Você precisa pensar nos riscos e nos benefícios e realmente pesar, porque você é responsável pelo que cria.
Não importa de onde você vem, desde que você entenda as ferramentas que você está usando para tirar conclusões, essa é a melhor coisa que você pode fazer. Somos todos cientistas agora e não estou falando apenas de projetar produtos. Estamos todos tirando conclusões sobre o mundo em que vivemos. Isso é o que é estatística – coletar dados para provar uma hipótese ou criar um modelo de como o mundo funciona. Se você confiar apenas nos resultados desse modelo cegamente, isso é perigoso, porque essa é a sua interpretação do mundo e, por mais falho que seja, sua compreensão é o quanto o resultado será falho. Em suma, aprenda estatísticas e seja atencioso.”
Eu recomendo que você leia o livro Data Scientists at Work. O livro mostra como alguns dos principais Cientistas de Dados do mundo trabalham em uma variedade estonteante de setores e aplicativos – cada um aproveitando sua própria combinação de conhecimento de domínio, estatística e ciência da computação para criar um enorme valor e impacto.
Os dados estão sendo gerados de forma exponencial e aqueles que podem entender os dados e extrair valor deles são necessários agora mais do que nunca. As lições e dicas obtidas dos profissionais listados neste artigo serão tremendamente úteis se você quiser se juntar à próxima geração de Cientistas de Dados.
Traduzido do original em inglês: 16 Useful Advices for Aspiring Data Scientists
David Matos
Outras Referências:
Cara,
Que site sensacional, estou tentando entrar nessa area agora e um monte perguntas que eu tenho este site responde!
Obrigado!
Valeu Nival. Muito obrigado. 🙂
Excelente matéria. Principalmente, para quem está iniciando no assunto.
Muito legal o artigo. Parabéns pela tradução! 👏🏻👏🏻👏🏻