Os Cientistas de Dados são conhecidos por terem melhores habilidades de programação do que um estatístico e melhor conhecimento estatístico do que um programador. Embora aprender programação não seja uma tarefa fácil, às vezes os novos especialistas em dados negligenciam a habilidade estatística.
Eu sei que estatística não é trivial, especialmente para pessoas que não são formalmente educadas nela. No entanto, é possível aprender estatística do zero – com a ajuda da tecnologia moderna. Aprender estatística se torna mais fácil do que nunca com todos os pacotes estatísticos desenvolvidos em linguagens de programação. E em Python temos muitas opções à disposição.
Claro que você deve usar a linguagem R em vez de Python; mas, a linguagem Python oferece atualmente excelentes pacotes estatísticos que estão em pleno desenvolvimento e evolução.
Neste artigo veremos os 3 Principais Pacotes Python Para Aprender Estatística Para Data Science!
1- Scipy.Stats
Scipy é um pacote Python para computação científica, de código aberto. O próprio Scipy também é uma coleção de algoritmos numéricos e caixas de ferramentas específicas usadas em muitas pesquisas matemáticas, de engenharia e de dados.
Uma das APIs disponíveis no Scipy é a API estatística chamada Stats. De acordo com a página inicial do Scipy, Scipy.Stats é um módulo que contém um grande número de distribuições de probabilidade e uma biblioteca crescente de funções estatísticas, especialmente para o estudo da função de probabilidade.
Para obter uma melhor compreensão do trabalho estatístico, Scipy.Stats também fornece um tutorial que você pode experimentar. O tutorial é abrangente e fácil de seguir (em inglês).
Se você estiver usando Python da distribuição Anaconda, o pacote Scipy já está embutido no ambiente. Se você optar por instalar o Scipy independentemente, precisará instalar o pacote de dependência.
Acesse a documentação e tutoriais aqui.
2- Pingouin
Pingouin é um pacote estatístico de código aberto. Este pacote oferece muitas classes e funções para aprender estatísticas básicas e testes de hipóteses. De acordo com o desenvolvedor, o Pingouin é projetado para usuários que desejam funções estatísticas simples, mas que ajudem no dia a dia.
O Pingouin é simples, mas exaustivo porque o pacote fornece mais explicações sobre os dados. Em Scipy.Stats, eles retornam apenas o valor T e o valor p quando às vezes queremos mais explicações sobre os dados.
No pacote Pingouin, o cálculo é executado algumas etapas acima. Por exemplo, em vez de retornar apenas o valor T e o valor p, o teste t do pacote Pingouin também retorna os graus de liberdade, o tamanho do efeito (d de Cohen), os intervalos de confiança de 95% da diferença nas médias, os dados estatísticos potência e o Fator de Bayes (BF10) do teste.
Cada teste estatístico no Pengouin fornece todas as pontuações necessárias que você espera do teste. Para uma melhor interpretação do resultado, você deve consultar a documentação da API aqui.
3- Statsmodel
Statsmodels é um pacote Python para modelagem estatística que fornece muitas classes e funções para criar uma estimativa estatística. O pacote Statsmodel costumava fazer parte do módulo Scipy, mas atualmente o pacote statsmodel é desenvolvido separadamente.
Qual a diferença entre Scipy.Stats e statsmodel? O módulo Scipy.Stats concentra-se no teorema estatístico, como função probabilística e distribuição, enquanto o pacote Statsmodels concentra-se na estimativa estatística com base nos dados.
Statsmodel fornece API frequentemente usada em modelagem estatística. O pacote Statsmodel divide as APIs em três modelos principais:
- statsmodels.api que fornece muitos modelos e métodos transversais, incluindo regressão e GLM.
- statsmodels.tsa.api que fornecem modelos e métodos de séries temporais.
- statsmodels.formula.api que fornece uma interface para especificar modelos usando fórmulas e DataFrames – em termos mais simples, você pode criar seu próprio modelo.
Statsmodel é um ótimo pacote inicial para qualquer pessoa que queira entender a modelagem estatística em maior profundidade. O guia do usuário fornece uma explicação detalhada do conceito de que você precisa para entender a estimativa estatística. Por exemplo, os termos endógenos e exógenos retirados do guia do usuário Statsmodel são explicados na passagem abaixo:
Algumas definições informais dos termos são:
endógeno: causado por fatores dentro do sistema
exógeno: causado por fatores externos ao sistema
Variáveis endógenas designam variáveis em um modelo econômico / econométrico que são explicadas ou previstas por esse modelo. Referência: http://stats.oecd.org/glossary/detail.asp?ID=794
Variáveis exógenas designam variáveis que aparecem em um modelo econômico / econométrico, mas não são explicadas por esse modelo (ou seja, são consideradas como fornecidas pelo modelo). Referência: http://stats.oecd.org/glossary/detail.asp?ID=890
O Statsmodels vem com o Anaconda Python. Aqui o link para a documentação.
David Matos
Referências: