RAG significa “Retrieval Augmented Generation” e refere-se a uma técnica usada para melhorar o desempenho de grandes modelos de linguagem (LLMs) em determinadas tarefas, incorporando capacidades de recuperação de informações.
A ideia principal por trás do RAG é combinar os poderosos recursos de geração de LLMs com a capacidade de recuperar informações relevantes de fontes de dados externas como web sites, bancos de dados ou coleções de documentos.
Aqui está uma visão geral de alto nível de como o RAG funciona:
Recuperação: Dada uma consulta de entrada ou contexto, um módulo de recuperação (muitas vezes baseado em técnicas como TF-IDF ou incorporações de vetores densos) é usado para identificar e buscar documentos ou passagens relevantes de fontes de dados externas.
Aumento: As informações relevantes recuperadas são então aumentadas ou concatenadas com a entrada original para criar um contexto de entrada aumentado.
Geração: Este contexto aumentado é alimentado em um modelo de linguagem padrão, que pode então gerar uma resposta de saída enquanto relaciona tanto a entrada original quanto o conhecimento externo recuperado.
A etapa de recuperação permite que o LLM vá além de apenas confiar em seu conhecimento pré-treinado e incorpore informações atualizadas e específicas de uma tarefa. Isto pode levar a um melhor desempenho em tarefas que requerem acesso a conhecimentos externos não cobertos pelos dados originais usados no treinamento do LLM.
Os modelos RAG mostraram resultados promissores em tarefas como resposta a perguntas de domínio aberto, verificação de fatos e investigação de conhecimento factual em comparação com LLMs regulares sem aumento de recuperação.
David Matos
Referências:
IA Generativa e LLMs Para Processamento de Linguagem Natural