Aprender linguagens de código aberto (open-source) tornou-se o padrão de fato para trabalhar em Data Science na última década. As ferramentas de código aberto são gratuitas, escaláveis e contam com um amplo suporte de milhares de indivíduos em comunidades cooperativas.
R é uma das linguagens de código aberto mais famosas que conquistou a preferência de milhões de Cientistas de Dados em todo o mundo.
Uma de suas principais vantagens é a grande comunidade que suporta uma infinidade de bibliotecas (pacotes) que são constantemente atualizadas e aprimoradas, podendo capturar os recentes desenvolvimentos em Machine Learning e pesquisa em Ciência de Dados em todo o mundo. E Linguagam R é definitivamente a melhor linguagem para análise estatística.
Existem literalmente milhares de pacotes que podem ser usados ao trabalhar com R — para iniciantes, isso pode parecer confuso, principalmente depois que você perceber que muitas bibliotecas têm o mesmo propósito e fazem coisas semelhantes. No site oficial você encontra a lista de todas as bibliotecas disponíveis atualmente: https://cran.r-project.org e neste post veremos os 5 Melhores Pacotes da Linguagem R Para Cientistas de Dados.
1- Pacote RODBC Para Extração de Dados
Quando você deseja recuperar dados diretamente de bancos de dados, o RODBC é uma das melhores opções.
Essa biblioteca permite que você se conecte diretamente a tabelas dentro de sistemas de gerenciamento de banco de dados usando canais ODBC (Open Database Connection) e recupere dados diretamente de sistemas de banco de dados, sem usar nenhuma interface csv, xlsx ou json. Usando RODBC, você usa a linguagem de consulta para transformar dados localizados em um SGBD (Sistema Gerenciador de Banco de Dados) diretamente em um dataframe.
Para usar o RODBC você precisa:
- Configurar uma conexão ODBC em seu sistema para o SGBD que você deseja;
- Configurar as credenciais para acessar o servidor de banco de dados. Claro, isso significa que você precisa de permissões válidas para acessar os dados.
- E é isso! Super fácil.
2- Pacote dplyr Para Data Wrangling
Depois de extrair os dados, você vai precisar limpá-los. O pacote dplyr é uma biblioteca de manipulação de dados, famosa por desbloquear o poder do operador pipeline dentro de R (%>% ).
A sintaxe R não é particularmente limpa quando se trata de lidar com pipelines de dados complexos. Adicionar vários filtros ou mesclar diferentes dataframes pode tornar seu código confuso. O dplyr potencializa o processo de manipulação de dados, permitindo que você escreva pipelines de dados complexos rapidamente.
3- Pacote caret Para Machine Learning
A biblioteca caret é uma das bibliotecas mais completas relacionadas ao aprendizado de máquina dentro da Linguagem R.
O pacote caret abstrai os modelos em uma função de treino genérica que pode ser usada com diferentes modelos, fornecendo um método. A principal diferença com outras bibliotecas é que o modelo agora é abstraído como um argumento dentro do caret em vez de ser uma função autônoma.
Com caret, também é muito simples comparar o desempenho e os resultados dos modelos — uma tarefa padrão em projetos de aprendizado de máquina.
4- Pacote h2o Para AutoML
O pacote caret é adequado para a maioria dos modelos de aprendizado de máquina. No entanto, quando você precisa de algo um pouco mais avançado ou usar AutoML, é hora de migrar para o h2o.
O pacote h2o contém uma implementação muito interessante de redes neurais feed-forward e outros modelos avançados. Se você deseja realizar experimentos e ajustes avançados de seus modelos, h2o deve ser um ótimo lugar para começar.
De todas as bibliotecas apresentadas aqui, h2o é definitivamente a mais avançada. Ao estudá-lo, você tropeçará em muitos novos conceitos, como ambientes distribuídos e escaláveis. Esses recursos são os que tornam o h2o adaptado para implantações de aprendizado de máquina, algo com o qual o caret ou outras bibliotecas de ML podem ter problemas.
5- Pacote ggplot2 Para Visualização de Dados
A base do R contém funções de plotagem que você pode usar assim que instalar o interpretador da Linguagem R — alguns exemplos são plot ou barplot que desenham gráficos de linhas e barras, respectivamente. Essas funções são legais, mas têm duas limitações principais:
- Cada função tem seus próprios argumentos para alimentar os dados e configurar a tela do gráfico.
- Adicionar elementos (títulos, rótulos, etc.) ao plot é bastante complicado e confuso.
Felizmente, existe outra biblioteca que é, sem dúvida, a biblioteca R mais famosa de todos os tempos. O ggplot2 permite criar quase todo tipo de gráfico que se imaginar, com alto nível de customização e de muita qualidade. O ggplot2 pode ser usado, por exemplo, dentro do Power BI.
David Matos
Referências: R Fundamentos Para Análise de Dados