Se você estiver pensando em aprender Python como sua linguagem de programação para Data Science, uma pergunta pode ajudar neste processo: “Quais são as diferentes bibliotecas Python disponíveis para realizar a análise de dados?”
Existem muitas bibliotecas disponíveis para realizar a análise de dados em Python. Pode não ser necessário ter que aprender todas essas bibliotecas, mas algumas são de grande importância para a maioria das tarefas de análise de dados. Vou dar uma breve introdução a cada uma destas bibliotecas.
A melhor forma de começar é pelo SciPy, onde é possível fazer o download de cada biblioteca individualmente. Estas bibliotecas fornecem apoio para a matemática, ciência, estatística e engenharia. Entre as principais bibliotecas estão: NumPy, SciPy, Matplotlib, IPython, SimPy, Pandas, Scikit-learn e Beautiful Soup.
NumPy – Computação Científica
NumPy é o pacote fundamental para computação científica com Python. Ele permite, entre outras coisas:
- Manipulação de matriz n-dimensional (uma matriz multidimensional rápida e eficiente que permite a vetorização de operações aritméticas), que é fundamental para o trabalho em Ciência de Dados.
- Ferramentas para a integração de código C / C++ e Fortran, permitindo transferir dados para bibliotecas externas escritas nestas linguagens.
- Utilitários de álgebra linear e capacidade de gerar números aleatórios.
Além das suas utilizações científicas óbvias, NumPy também pode ser utilizado como um recipiente multidimensional de dados genéricos. Tipos de dados arbitrários podem ser definidos. Isso permite que NumPy, de forma transparente e rápida, se integre com uma ampla variedade de bancos de dados.
NumPy não fornece a funcionalidade de análise de dados de alto nível, mas fornece operações com matrizes, que tornam o trabalho de análise de dados com o Pandas, muito mais eficiente.
SciPy – Operações Matemáticas
A biblioteca SciPy depende da biblioteca NumPy, que fornece manipulação de matriz n-dimensional de forma prática e rápida. A biblioteca SciPy foi construída para trabalhar com matrizes e fornece muitas rotinas numéricas de fácil utilização e eficientes, como rotinas de integração e otimização numérica. SciPy possui módulos para otimização, álgebra linear, integração e outras tarefas comuns na Ciência de Dados.
Pandas – Análise de Dados
Pandas é uma biblioteca de alto desempenho que fornece suporte para estruturas de dados e ferramentas de análise de dados. A biblioteca é otimizada para executar tarefas de Ciência de Dados de forma rápida e eficiente. O princípio básico do Pandas é fornecer análise de dados e suporte a modelagem para Python de forma semelhante a outras línguas, como o R.
Scikit-learn – Machine Learning
Scikit-learn é um módulo Python para Machine Learning. Ele fornece um conjunto de algoritmos de aprendizagem de máquina comum aos usuários através de uma interface consistente. Scikit-learn ajuda a implementar rapidamente algoritmos em seu conjunto de dados. Dê uma olhada na lista de algoritmos disponíveis em scikit-learn, e você pode rapidamente perceber que inclui ferramentas para muitas tarefas de aprendizagem de máquina padrão (como clustering, classificação, regressão, etc).
Matplotlib – Visualização de dados
Matlplotlib é um módulo Python para visualização de dados. Matplotlib permite que você crie facilmente gráfico, histogramas e outras figuras profissionais. Usando Matplotlib você pode personalizar cada aspecto de uma figura. Quando usado no IPython, Matplotlib tem recursos interativos, como zoom e visão panorâmica. Ele possui suporte em todos os sistemas operacionais e também pode exportar gráficos para vetor comum e formatos gráficos: pdf, svg, jpg, png, bmp, gif, etc.
SymPy – Computação Simbólica
SymPy é uma biblioteca Python para a matemática. Destina-se a tornar-se um sistema de álgebra computacional full-featured, mantendo o código tão simples quanto possível, a fim de ser compreensível e facilmente extensível. SymPy é inteiramente escrito em Python e não requer nenhuma biblioteca externa.
Beautiful Soup – Análise HTML e XML
A biblioteca Beautiful Soup fornece os meios para análise de dados HTML ou XML de uma maneira que Python possa compreender. Ele permite que você trabalhe com dados baseados em tags, como os encontrados em arquivos html e xml.
IPython-Notebook
Esta é simplesmente uma grande ferramenta. Você pode executar múltiplas linhas / blocos de código em diferentes células, você pode brincar com os dados, movê-los para cima ou para baixo e você ainda pode obter seus resultados logo abaixo da célula. É realmente como um organizador mágico que cientistas de dados (e as pessoas que executam código) sempre sonharam. Você também pode escrever em R, SQL, Scala, e outras línguagens em IPython-Notebook o que faz com que o fluxo de trabalho seja muito mais fácil e eficiente.
David Matos
Artigo breve, porém, muito bom!
Obrigado Douglas.
Realmente muito bom, bem objetivo e esclarecedor.
Valeu Erick. Muito obrigado.
Faço curso de engenharia e o professor de programação pediu trabalho sobre o qual estou perdida em encontrar material sobre o mesmo.
Ele pede sobre a biblioteca Pandas vincula ao Python, ele quer:
Conceitos
Instalação
Importação
Estrutura (data structure)
Criação de Objetos (Series e DataFrame)
Visualização de Dados
Seleção de dados
Operações
Trabalhando com dados categoricos no DataFrame
Trabalhando com arquivos (Leitura e Escrita [csv, excel])
Nem sou da área da computação, tenho disciplinas Programação I e II, estou na I. Nunca tive contato com isso antes. Enfim, não estou conseguindo encontrar claramente esses tópicos. Nunca passei por uma situação dessas. Se alguém puder me ajudar, agradeço. Não quero trabalho pronto, mas onde encontrar os materiais para ler e entender. Encontrei muitos em inglês, mas a tradução fica muito estranha. Desde já, obrigada.
Olá Juliana. Acho que aqui tem o que você precisa: https://www.datascienceacademy.com.br/course?courseid=python-fundamentos. Abs. David
Muito obrigada David Matos.
Ajudou muito, bjos e felicidades.
Nossa, muito feliz!!
Olá meu nome e césar sou do BR estou acompanhando seu artigos no blog estou gostando muito minha pos graduação e em banco de dados tenho 46 anos ainda não trabalho na aréa mas tenho estudado muito e buscado conhecimento, gostei muito dos seu artigos, parabéns pelos seu trabalho e muito sucesso.