Statistical Machine Translation (SMT) é uma técnica usada para tradução automática de idiomas (Machine Translation – MT) uma das principais tarefas em Processamento de Linguagem Natural, que por sua vez é uma das principais áreas da Inteligência Artificial. Desde a sua criação, SMT provou ser um método inestimável em MT, moldando o campo no que é hoje.
O SMT possui pontos fortes impressionantes, bem como falhas significativas em comparação com outras abordagens MT, como a Tradução Automática Baseada em Regras (Rule-Based Machine Translation – RBMT) que é usada em alguns chatbots e a Neural Machine Translation (NMT), a técnica mais avançada usada por exemplo pelo Google Translator. Como funciona o Statistical Machine Translation para tradução automática de idiomas, quais são os seus prós e contras e quão bem ele opera no campo atual do MT? É o que vamos analisar neste artigo.
O Que é Statistical Machine Translation (SMT)?
O SMT usa análise estatística e algoritmos preditivos para definir regras que são mais adequadas para a tradução da sentença alvo. Esses modelos são treinados usando um corpus bilíngüe.
Com base no texto do assunto que é usado para treinar um corpus, o SMT será mais adequado para documentos relacionados ao mesmo assunto. Geralmente, um corpus sólido requer 100 milhões de palavras e 1 milhão de frases alinhadas para serem efetivas.
O SMT pode ser abordado através de diferentes subgrupos: baseados em palavras, baseados em frases, baseados em sintaxe e baseados em frases hierárquicas.
Para simplificar, os modelos estatísticos devem ir do ponto A ao ponto B para chegar ao ponto C. Esta é uma abordagem de tradução muito diferente da NMT, em que os modelos aprendem como ir diretamente ao ponto C e não dependem exclusivamente de probabilidade ou chance.
Vantagens do SMT
Uma grande vantagem do SMT é a disponibilidade de plataformas e algoritmos – o que significa que muito do trabalho de construção e treinamento de um corpus já foi feito para você e pode ser encontrado a uma taxa muito mais barata do que o normal (e em muitos casos até mesmo de forma gratuita). Como resultado, você pode treinar e adicionar novos idiomas muito rápido em comparação com outros modelos de MT.
O SMT também requer menos espaço virtual do que outros modelos de MT, o que torna mais fácil operar e treinar em sistemas menores. Isso significa que uma empresa não precisa dedicar um servidor inteiro a apenas MT.
Um corpus bem treinado e adaptado pode consistentemente traduzir conteúdo abrangente e é frequentemente mais preciso do que o NMT. No entanto, o conteúdo traduzido geralmente contém erros que exigem pós-edição. Não é adequado para comunicações externas antes que isso ocorra.
Desvantagens do SMT
Uma fraqueza do SMT é o desafio de traduzir material que não é semelhante ao conteúdo do corpus de treinamento. Embora o SMT possa se sobressair com o material que o corpus de treinamento definiu, como textos técnicos escritos em um estilo simples, ele terá dificuldades se receber um texto que contenha gírias, expressões idiomáticas ou um estilo casual geral.
Nestes casos, a precisão do SMT cai drasticamente. Como resultado, o corpora (conjunto de corpus) deve ser personalizado para um estilo específico para ser mais eficaz. Mesmo assim, o SMT é incapaz de traduzir expressões idiomáticas e material de marketing – usando-a para resultados de estilo casual com baixa precisão.
Outra questão é que os sistemas SMT precisam de conteúdo bilíngüe e isso pode ser complicado quando se trata de encontrar conteúdo escrito em idiomas mais raros. Além disso, os pares de idiomas entre as famílias de idiomas terão um baixo limiar de precisão e as traduções resultantes serão ruins.
O SMT também pode ser caro. Embora seja muito menos dispendioso do que o NMT, ainda exigirá uma grande quantidade de custos iniciais. O pré-processamento e a criação de corpus não são apenas caros e demorados, mas também exigem colaboração com cientistas da computação, tradutores e linguistas. O processo completo pode levar meses.
Não só isso, mas é mais difícil corrigir erros no sistema depois de implementado. Com modelos como o RBMT, você pode corrigir erros e remover certas palavras com bastante facilidade. Com o SMT, você precisa reciclar todo o sistema e verificar se outros erros foram introduzidos.
Como o SMT se Compara a Outras Abordagens?
Em comparação com outras abordagens de MT, o SMT tem algumas vantagens bastante claras, especialmente quando se trata de idiomas amplamente usados que estão dentro da mesma família de idiomas. A automação é outro grande benefício, e sua disponibilidade na maioria das plataformas ajuda na acessibilidade e compatibilidade.
Se uma empresa leva a sério o investimento de tempo, dinheiro e esforço em uma solução de MT para uma necessidade específica, o SMT pode ser a resposta perfeita. No entanto, outros modelos de MT serão mais eficazes se você estiver lidando com idiomas raros, texto casual ou conteúdo de natureza variada.
Recentemente, algumas empresas se afastaram de uma abordagem puramente estatística para a tradução automática, e estão usando outros modelos como o híbrido ou o NMT. Embora o SMT tenha pavimentado o caminho da tradução automática até este ponto, é preciso perguntar se a técnica será descartada no futuro em favor de outros modelos. O tempo dirá!
David Matos
Referências:
Statistical Machine Translation Book