LLM halucinují. To je fakt. RAG (Retrieval Augmented Generation) je architektonický pattern, který tento problém dramaticky zmírňuje — a otevírá dveře pro enterprise AI aplikace.
Problém: LLM nezná vaše data¶
GPT-4 má encyklopedické znalosti. Ale nezná vaše interní procesy, produkty, klienty. A když se zeptáte na něco, co nezná? Vymyslí si to. Sebevědomě.
Jak RAG funguje¶
- Indexace: Vaše dokumenty → chunking → embeddings → vector DB
- Retrieval: Uživatelský dotaz → embedding → similarity search → top-K dokumenty
- Generation: Prompt = system instructions + retrieved context + user query → LLM → odpověď
Chunking — ďábel je v detailech¶
Příliš malé chunky ztrácí kontext. Příliš velké plýtvají context window. Náš sweet spot: 500-1000 tokenů s 100 token overlap. Pro strukturované dokumenty chunk po sekcích.
Retrieval strategie¶
Hybrid search (vector + BM25) funguje lépe pro technické dotazy. Re-ranking modely (cross-encoders) výsledky dále zpřesní.
Evaluace¶
Měříme: Faithfulness (odpovídá kontext?), Relevance (je kontext relevantní?), Answer correctness. Používáme RAGAS framework.
RAG je enterprise AI must-have¶
Pokud stavíte AI aplikaci nad firemními daty, RAG je základ. Kvalita závisí na chunking strategii, retrieval pipeline a prompt designu.