Este é o terceiro artigo sobre GraphRAG. Para acessar o primeiro artigo, clique aqui.
Os benefícios que estamos vendo do GraphRAG em relação ao RAG somente vetorial se enquadram em três grupos principais:
– Maior precisão e respostas mais completas (benefício de tempo de execução/produção).
– Depois de criar o grafo de conhecimento, será mais fácil construir e posteriormente manter o aplicativo RAG (benefício de tempo de desenvolvimento/manutenção).
– Melhor explicabilidade, rastreabilidade e controles de acesso (benefício de governança).
Vamos detalhar então Os 3 Principais Benefícios de Usar GraphRAG em IA Generativa:
Nº 1: Maior Precisão e Respostas Mais Úteis
O primeiro (e mais imediatamente tangível) benefício que vemos com o GraphRAG são as respostas de maior qualidade. Um exemplo é o da empresa de catálogo de dados Data.world. No final de 2023, eles publicaram um estudo (link ao final do artigo) que mostrou que o GraphRAG, em média, melhorou a precisão das respostas do LLM em 3x em 43 questões de negócios. O benchmark encontrou evidências de uma melhoria significativa na precisão das respostas quando apoiada por um grafo de conhecimento.
Mais recentemente, e talvez mais conhecida, houve uma série de postagens da Microsoft começando em fevereiro de 2024 com um post intitulado GraphRAG: Desbloqueando a descoberta de LLM em dados privados narrativos, junto com um artigo de pesquisa associado e lançamento de software (link no final deste artigo). Nesse trabalho eles observaram que o RAG padrão (ou seja, com vetores) tem os dois problemas a seguir:
- O Baseline RAG luta para conectar os pontos. Isso acontece quando responder a uma pergunta exige a passagem de informações díspares por meio de seus atributos compartilhados, a fim de fornecer novos insights sintetizados.
- O Baseline RAG tem um desempenho ruim quando solicitado a compreender holisticamente conceitos semânticos resumidos em grandes coleções de dados ou até mesmo em grandes documentos singulares.
A Microsoft descobriu que “ao usar o grafo de conhecimento gerado pelo LLM, o GraphRAG melhora enormemente a parte de ‘recuperação’ do RAG, preenchendo a janela de contexto com conteúdo de maior relevância, resultando em melhores respostas e capturando a proveniência das evidências”. Eles também descobriram que o GraphRAG exigia entre 26% e 97% menos tokens do que abordagens alternativas, tornando-o não apenas melhor no fornecimento de respostas, mas também mais barato e mais escalável.
Indo mais fundo no tópico da precisão, não é apenas importante saber se uma resposta está correta; é também o quão úteis são as respostas. O que as pessoas têm descoberto com o GraphRAG é que as respostas não são apenas mais precisas, mas também mais ricas, mais completas e mais úteis. O artigo recente do LinkedIn descrevendo o impacto do GraphRAG em seu aplicativo de atendimento ao cliente fornece um excelente exemplo disso.
O GraphRAG melhora a correção e a riqueza (e, portanto, a utilidade) para responder perguntas de atendimento ao cliente, reduzindo o tempo médio de resolução por problema em 28,6% para uma equipe de atendimento ao cliente.
Um outro exemplo notável que incluirei vem do Writer. Recentemente, eles anunciaram um relatório de benchmarking RAG baseado na estrutura RobustQA, comparando sua abordagem baseada em GraphRAG com as melhores ferramentas competitivas do setor. O GraphRAG resultou em uma pontuação de 86%, o que é uma melhoria significativa em relação à concorrência, cujas pontuações variaram entre 33% e 76%, com latência equivalente ou melhor.
Nº 2: Melhor Compreensão dos Dados, Iteração Mais Rápida
Os grafos de conhecimento são intuitivos tanto conceitualmente quanto visualmente. Ser capaz de explorá-los muitas vezes revela novos insights. Um benefício colateral inesperado que muitos usuários estão relatando é que, depois de investirem na criação de seu grafo de conhecimento, eles descobrem que isso os ajuda a construir e depurar seus aplicativos GenAI de maneiras inesperadas. Em parte, isso tem a ver com a forma como ver os dados como um grafo pinta uma imagem viva dos dados ao aplicativo. O grafo também fornece ganchos para rastrear respostas até os dados e rastrear esses dados na cadeia causal.
Ao trabalhar com seus dados como um grafo, você pode apreendê-los de uma forma que não é possível com uma representação vetorial.
Aqui está um exemplo de um webinar recente do LlamaIndex, mostrando sua capacidade de extrair o grafo de pedaços vetorizados (o grafo lexical) e entidades extraídas do LLM (o grafo de domínio) e unir os dois com relacionamentos “MENTIONS”:
Olhando para este diagrama, você provavelmente começará a ver como ter uma estrutura rica onde seus dados residem abre uma ampla gama de novas possibilidades de desenvolvimento e depuração. Os dados individuais mantêm seu valor e a própria estrutura armazena e transmite significado adicional, que você pode usar para adicionar mais inteligência ao seu aplicativo.
Não é apenas a visualização. É também o efeito de ter seus dados estruturados de uma forma que transmitam e armazenem significado.
Nº 3: Governança – Explicabilidade e Segurança
Quanto maior o impacto de uma decisão da GenAI, mais você precisa ser capaz de convencer a pessoa que está usando a solução a confiar na decisão. Isso normalmente envolve a capacidade de auditar cada decisão. Também requer um histórico sólido e reproduzível de boas decisões. Mas isso não é suficiente. Você também precisa ser capaz de explicar o raciocínio a essa pessoa quando ela toma uma decisão.
Os LLMs não oferecem uma boa maneira de fazer isso por conta própria. Sim, você pode obter referências dos documentos utilizados para tomar a decisão. Mas isso não explica a decisão em si – sem falar no fato de que os LLMs são conhecidos por fazerem essas referências! Os grafos de conhecimento operam em um nível totalmente diferente, tornando a lógica de raciocínio dentro dos pipelines GenAI muito mais clara e as entradas muito mais explicáveis.
Vamos continuar com um dos exemplos acima, onde Charles da Lettria carrega um grafo de conhecimento com entidades extraídas de 10.000 artigos financeiros e usa isso com um LLM para realizar o GraphRAG. Vimos como isso fornece melhores respostas. Vamos dar uma olhada nos dados:
Ver os dados como um grafo é a primeira parte. Os dados também são navegáveis e consultáveis e podem ser corrigidos e atualizados com o passar do tempo. A vantagem da governança é que se torna muito mais fácil visualizar e auditar o “modelo mundial” dos dados.
O uso de um grafo torna mais provável que o ser humano responsável pela decisão o compreenda, em relação a receber a versão vetorial dos mesmos dados. Do lado da garantia de qualidade, ter os dados em um grafo de conhecimento torna muito mais fácil detectar erros e surpresas nos dados (agradáveis ou não) e rastreá-los até sua origem.
Você também pode capturar informações de procedência e confiança no grafo e usá-las não apenas em seus cálculos, mas também em sua explicação. Isso simplesmente não é possível quando você olha para a versão apenas vetorial dos mesmos dados que, como discutimos anteriormente, é bastante inescrutável para o ser humano médio – e até mesmo acima da média!
Os grafos de conhecimento também podem melhorar significativamente a segurança e a privacidade. Isso tende a ser menos importante ao construir um protótipo, mas é uma parte crítica do caminho para a produção. Se você atua em um negócio regulamentado, como bancário ou de saúde, o acesso que qualquer funcionário tem às informações provavelmente depende da função dessa pessoa.
Nem os LLMs nem os bancos de dados vetoriais têm uma boa maneira de limitar o escopo da informação para corresponder à função. Você pode lidar com isso prontamente com permissões dentro de um grafo de conhecimento, onde a capacidade de qualquer ator de acessar dados é governada pelo banco de dados e excluir resultados que eles não têm permissão para ver. Aqui está um modelo de uma política de segurança simples que você pode implementar em um grafo de conhecimento com controles de acesso refinados:
Embora esteja longe de ser perfeito e ainda bem no início, o GraphRAG pode trazer benefícios consideráveis ao customizar o uso de LLM para aplicações corporativas.
David Matos
Referências:
The GraphRAG Manifesto: Adding Knowledge to GenAI
GraphRAG: A New Approach for Question & Answering on Private Data
Generative AI Benchmark: Increasing the Accuracy of LLMs in the Enterprise with a Knowledge Graph
GraphRAG: Unlocking LLM discovery on narrative private data
From Local to Global: A Graph RAG Approach to Query-Focused Summarization
Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering