[ Insights · 28 de março de 2026 ]
RAG que realmente funciona (e como medir)
Recuperar não é responder. Um guia opinativo sobre estratégias de chunking, reranking e avaliação contínua.

RAG virou commodity — mas a maioria das implementações para na primeira pergunta capciosa. O motivo é simples: recuperação ruim, contexto pobre, evals inexistentes.
Seis camadas
- Ingestão — fontes confiáveis primeiro
- Chunking — semântico, não por contagem
- Embedding — modelo afinado ao domínio
- Recuperação — híbrido (vetor + BM25)
- Reranking — cross-encoder no top-k
- Geração — com citações e fallback
Métrica que importa
Precision@K medida contra um gold set humano. Sem isso, você está chutando.
Cada camada tem evals próprios. Quando algo regride, você sabe onde.