Kaggle é uma plataforma bastante conhecida que permite aos usuários participar de competições de Machine Learning, explorar e publicar conjuntos de dados e também ter acesso a treinamentos. É um ótimo ecossistema para se envolver, conectar e colaborar com outros Cientistas de Dados para construir modelos de aprendizado de máquina incríveis.
Com o passar dos anos, o Kaggle ganhou popularidade organizando competições que variam de divertidos exercícios mentais a competições comerciais que oferecem prêmios em dinheiro e classificam os participantes. A participação nessas competições também pode abrir as portas para o recrutamento de empresas de ponta. Muitas empresas que estão atoladas por problemas difíceis de Ciência de Dados ou que não têm uma equipe interna procuram os concursos do Kaggle para preencher essa lacuna.
Sem dúvida, o Kaggle é a maior comunidade online de Cientistas de Dados. Para iniciantes que desejam embarcar em sua jornada no campo, o Kaggle é uma plataforma valiosa para começar e construir um portfólio.
Mas será que um aspirante a Cientista de Dados deve confiar exclusivamente no Kaggle para entrar no mercado?
Pessoalmente, acredito que os Cientistas de Dados não deveriam usar o Kaggle como parâmetro ou como única fonte. Na verdade, além de propósitos educacionais e sua utilidade na descoberta de conjuntos de dados, eu prefiro ficar completamente longe dos concursos do Kaggle. Vejamos algumas considerações importantes sobre o Kaggle.
As Competições do Kaggle Podem Não Simular Problemas do Mundo Real
As competições do Kaggle podem ser postadas publicamente para todos os competidores interessados ou realizadas em particular para alguns participantes selecionados. O anfitrião do concurso deve preparar os dados e fornecer descrições detalhadas do problema em questão.
Agora, a principal preocupação com o Kaggle é que os usuários sejam alimentados com os dados que devem usar. Em outras palavras, os Cientistas de Dados em competição começam a trabalhar imediatamente com dados que já estão limpos. Os problemas do mundo real, por outro lado, são completamente diferentes, o que as competições Kaggle nunca representam.
Esqueça a limpeza de dados; os problemas de negócios que você receberia no mundo real não são nem de longe tão simples quanto os do Kaggle. O papel de um Cientista de Dados fora das competições envolve muito mais do que apenas analisar os números. Requer experiência de domínio, localização e preparação dos dados relevantes, extração e limpeza, execução de código, implantação de modelos em dados ativos, análise de compensações como precisão, velocidade, tamanho e portabilidade e, em última análise, determinar se uma solução é viável ou não. Ao contrário dos concursos do Kaggle, nos quais você está limitado a um conjunto de dados com o único objetivo de obter a melhor precisão, a prática real da Ciência de Dados é muito mais complexa. Na realidade, minerar os dados é o que faz toda a diferença entre um modelo ok e um modelo ótimo, não apenas a análise.
Portanto, embora as competições do Kaggle sejam uma boa prática para iniciantes, elas exigem apenas lidar com a ponta do iceberg. Além disso, o Kaggle literalmente resolve a maioria dos problemas para você. Essa estrutura acaba dando aos aspirantes a Cientistas de Dados as expectativas erradas e uma visão limitada do mercado.
As Competições do Kaggle Podem Ser Desestimulantes Para os Iniciantes
Se sua relevância limitada à inexistente no mundo real não fosse suficiente, as competições do Kaggle colocaram os Cientistas de Dados na corrida dos ratos. Bem, eu sei que as competições Kaggle são divertidas e de forma alguma estou tentando desencorajá-lo de participar delas. Mas, no final, a estrutura altamente competitiva e baseada em recompensas do Kaggle pode ser intimidante para muitas pessoas, especialmente quando elas estão apenas começando.
Minha principal preocupação com as competições do Kaggle é que elas colocam você em uma mentalidade competitiva em que o objetivo da Ciência de Dados muda de criar o melhor algoritmo para ganhar aqueles 0,001 pontos extras com a esperança de chegar às poucas primeiras posições. A verdade é que chegar aos primeiros 0,1 por cento na classificação de Kaggle não é moleza, não importa o quão bom você seja. Esse vício em melhorar a precisão do modelo para uma melhor classificação pode ser uma boa mudança do Kaggle para gamificar a Ciência de Dados e fazer com que as pessoas voltem, mas é assustadoramente viciante e não tão benéfico para os próprios Cientistas de Dados.
Pontos e classificações só deixam as pessoas cada vez mais obcecadas com a competição em si, e elas acabam se divertindo menos com os dados, limitando-se a agradar o algoritmo do Kaggle. Embora possa parecer estranho, o pensamento criativo desempenha um grande papel na Ciência de Dados. Existem inúmeras maneiras de interpretar e extrair dados para encontrar algo significativo. Os conjuntos de dados feitos sob medida que o Kaggle fornece limitam a criatividade, já que o Cientista de Dados não precisa explorar a arte de combinar diferentes dados. Para os recém-chegados, essa atitude e o foco na competição podem facilmente se tornar um ciclo vicioso ou uma espiral descendente. Ficar atolado em um jogo de números pode afetar qualquer pessoa, causando estresse e ansiedade.
Outra desvantagem dos concursos do Kaggle são os equívocos que eles dão aos aspirantes a Cientistas de Dados sobre possíveis recompensas. Muitos deles inicialmente percebem essas competições como uma forma de ganhar dinheiro. Na verdade, isso raramente acontece. A busca por um prêmio no Kaggle apenas faz com que os Cientistas de Dados em formação desviem sua atenção para as coisas erradas. Em vez de tentar melhorar em aprendizado de máquina, eles podem facilmente começar a se tornar gananciosos. Dada a relativa infrequência de acertar um jackpot, essa mudança de foco não vale a pena a quantidade de tempo que as pessoas investem nela.
Além disso, é muito fácil começar a avaliar seu progresso apenas por meio das tabelas de classificação do Kaggle. Uma classificação baixa pode fazer qualquer pessoa sentir que não é muito boa em trabalhar com Data Science. O fato é que o Kaggle não reflete realmente o trabalho real de Data Science e Machine Learning. A obsessão com as classificações no Kaggle pode tirar do campo os Cientistas de Dados qualificados.
Conclusão: Escolha Seu Próprio Caminho
No final, Kaggling pode ser divertido por um curto período, especialmente como um projeto paralelo. Não há dúvida de que é uma ótima plataforma para aprimorar as habilidades de Ciência de Dados. Mas, apesar de seus benefícios, nunca chegará perto dos aplicativos do mundo real e sempre cobrirá apenas um pequeno aspecto de todo o trabalho. Pode-se facilmente fazer muito mais progresso, ganhar experiência e explorar uma gama mais ampla de problemas de Ciência de Dados trabalhando em seus próprios projetos, como por exemplo os muitos projetos oferecidos nos cursos da Data Science Academy ou trabalhando em seus próprios projetos ao mesmo tempo que cria seu portfólio de projetos.
Uma outra alternativa é usar as competições do Kaggle como exemplos de projetos depois que a competição foi encerrada, sem ter que entrar na paranóia de conseguir mais 0,0001 de acurácia e ficar entre os 100 primeiros classificados durante o prazo da competição.
Mas acima de tudo, experimente. Tente uma ou outra competição do Kaggle e tire suas próprias conclusões.
David Matos
Referências:
Valeu a pena ler este texto, o alerta sobre receber dados prontos e sobre a obsessão por obter 0,1 a mais de precisão foram bem úteis pra mim, eu me interesso muito pela área da Ciência de Dados em Saúde, acho muito mais estimulante buscar uma melhor qualidade de vida para as pessoas. Me considero iniciante e prefiro me dedicar a uma coisa que o Kaggle não cobra muito: limpeza e tratamento de dados, é um trabalho mais desgastante mas é bem vindo pra qualquer equipe de Ciência de Dados, pelo menos eu não passo vergonha no início da carreira e consigo ser útil no emprego antes de me tornar um expert.