Processar dados no formato de texto não é uma tarefa simples. Cada texto pode estar organizado de forma diferente, com mais ou menos parágrafos, com diferentes tipos de caracteres especiais, diferentes estruturas gramaticais, diferentes idiomas, etc…
Estruturar esses dados e então usá-los para análise pode ser bem trabalhoso, isso sem falar nos diferentes tipos de formatações quando precisamos tratar datas e contrações, por exemplo.
Mas essas 6 bibliotecas Python podem ser bastante úteis no processamento de texto.
Experimente-as em seus projetos de Ciência de Dados.
1. Pacote datefinder
Módulo Python para localizar datas dentro do texto. Use este pacote para extrair todos os tipos de data como strings de um documento e transformar em objetos de data e hora. Aqui um exemplo:
2. Pacote num2words
Esta é uma biblioteca que converte números como “25” em palavras como “vinte e cinco”. Ele suporta vários idiomas e pode até gerar números ordinais (embora esse último recurso seja um pouco problemático para alguns idiomas no momento). Aqui um exemplo:
3. Pacote wordninja
Biblioteca que divide as palavras concatenadas probabilisticamente usando Processamento de Linguagem Natural (PLN) com base nas frequências de unigramas da Wikipédia em inglês. Aqui um exemplo:
4. Pacote contractions
Transforma as contrações em inglês, convertendo you're
para you are
. Aqui um exemplo:
5. Pacote pyspellchecker
Pacote Python baseado em um post do blog de Peter Norvig sobre a configuração de um algoritmo simples de verificação ortográfica.
O pacote usa um algoritmo de Distância Levenshtein para encontrar permutações dentro de uma distância de 2 a partir da palavra original. Em seguida, ele compara todas as permutações (inserções, exclusões, substituições e transposições) com palavras conhecidas em uma lista de frequência de palavras. As palavras que são encontradas com mais frequência na lista de frequência são mais provavelmente os resultados corretos.
O pyspellchecker suporta vários idiomas, incluindo inglês, espanhol, alemão, francês e português. Aqui um exemplo:
6. Pacote textblob
TextBlob é uma biblioteca Python para processamento de dados textuais. Ele fornece uma API simples para mergulhar em tarefas comuns de Processamento de Linguagem Natural (PLN), como marcação de parte da fala, extração de frases nominais, análise de sentimentos, classificação, tradução e muito mais. Aqui um exemplo:
A Linguagem Python fornece um ecossistema de pacotes que vale a pena explorar.
David Matos
Referências:
Curso Gratuito Python Fundamentos Para Análise de Dados
Excelente material!!
Muito bom! Dei uma olhada e estou sempre correndo atrás de mais conhecimento nesta área.
Perfect. Dei uma olhadela e está optimo