Pular para o conteúdo

O que é RAG?

RAG (Retrieval Augmented Generation) é uma arquitetura em que o LLM, antes de responder, busca informação em uma base de dados externa (documentos, manuais, FAQs) e usa o resultado como contexto pra gerar a resposta.

Explicação completa

O fluxo típico tem três etapas. Primeiro, os documentos da base são transformados em embeddings (vetores numéricos que capturam significado) e salvos em um banco vetorial. Segundo, quando o usuário faz uma pergunta, ela também vira embedding e o sistema busca os trechos mais similares na base. Terceiro, esses trechos são injetados no prompt do LLM como contexto, e o modelo responde com base neles. RAG resolve dois problemas: dar acesso a informação específica que o LLM não viu no treino (manuais internos, base de conhecimento da empresa) e reduzir alucinações em respostas factuais. É a abordagem mais comum hoje em chatbots empresariais e assistentes especializados.

Exemplo prático

Um chatbot de suporte interno: a empresa indexa toda a documentação técnica (10.000 páginas) num banco vetorial. Quando um funcionário pergunta 'como solicitar reembolso de viagem?', o sistema busca os 5 trechos mais relevantes da política, injeta no prompt do LLM e o modelo responde com base nesses trechos. O LLM nunca foi treinado com a política da empresa, mas responde como se conhecesse.

Perguntas frequentes

RAG e fine-tuning são a mesma coisa?

Não. Fine-tuning re-treina o modelo com dados próprios; o conhecimento fica embutido nos pesos. RAG mantém o modelo intacto e injeta informação no momento da pergunta via busca. RAG é mais barato, mais fácil de atualizar (só atualizar a base) e mais transparente (você sabe quais documentos foram consultados). Fine-tuning ainda compensa quando precisa mudar estilo ou tom de forma permanente.

Quando RAG não funciona bem?

Quando a pergunta exige raciocínio sobre múltiplos documentos pouco conectados, quando a base é caótica ou não estruturada, ou quando os trechos relevantes são longos demais pra caber no contexto. Também falha em perguntas que exigem entendimento global da base (resumir tudo) — RAG é bom em buscar trechos, não em sintetizar bibliotecas inteiras.

RAG elimina alucinações?

Reduz drasticamente em respostas factuais, mas não elimina. O modelo ainda pode interpretar mal o contexto recuperado, misturar trechos ou inventar detalhes que parecem coerentes. Usar prompts que peçam citação explícita dos trechos e forçar o modelo a recusar quando o contexto não bastar mitiga ainda mais.

Preciso de banco vetorial pra fazer RAG?

Pra escala razoável, sim — bancos como Pinecone, Weaviate, Qdrant, pgvector (Postgres). Pra MVP ou bases pequenas, dá pra calcular embeddings em memória e buscar com numpy. A escolha depende de volume, latência exigida e infraestrutura disponível.

Quer dominar Inteligência Artificial na prática?

A IA do Souly gera um plano de estudos sob medida em poucos minutos.

Criar meu curso

Última atualização: