Rok po ChatGPT se naši klienti ptají: „Jak to dostaneme do našich systémů?” Ne jako chatbota na webu — to zvládne každý. Ale jako integrální součást business procesů: automatická analýza smluv, inteligentní vyhledávání v interní znalostní bázi, generování reportů. Po šesti měsících LLM projektů sdílíme, co funguje a co ne.
RAG — Retrieval Augmented Generation¶
Fine-tuning je drahý a pro většinu enterprise use cases zbytečný. RAG je pragmatičtější: uživatel se zeptá → systém najde relevantní dokumenty z interní databáze → pošle je LLM jako kontext → LLM generuje odpověď s citacemi zdrojů.
Náš RAG stack: Azure OpenAI (GPT-4) pro generování, Azure AI Search pro vektorové vyhledávání, LangChain pro orchestraci. Dokumenty chunked, embedded, indexované. Funguje překvapivě dobře pro znalostní báze a FAQ systémy.
Prompt engineering — víc věda než umění¶
System prompts s jasnými instrukcemi, few-shot examples, chain-of-thought pro komplexní reasoning. Guardrails: „Odpovídej POUZE na základě poskytnutého kontextu. Pokud informaci nemáš, řekni to.” Bez guardrails LLM s radostí hallucinate — a v enterprise je to nepřijatelné.
Use case: Analýza smluv¶
Právní oddělení pojišťovny zpracovává stovky smluv měsíčně. LLM extrahuje klíčové klauzule, identifikuje rizika, porovnává se standardní šablonou. Výsledek: 60 % redukce času na review. Právník stále rozhoduje — LLM je asistent, ne náhrada.
Use case: Interní helpdesk¶
RAG nad interní dokumentací (Confluence, SharePoint). Zaměstnanec se zeptá „jak požádat o dovolenou” nebo „jaký je proces schvalování faktur” a dostane odpověď s odkazem na zdrojový dokument. 40 % snížení tiketů na IT helpdesk.
Bezpečnost a governance¶
Data leakage: firemní data nesmí jít do public OpenAI API. Azure OpenAI s private endpoint — data zůstávají v Azure tenantu.
PII filtrace: před odesláním do LLM maskujeme osobní údaje (jména, rodná čísla, adresy). Po zpracování de-maskujeme.
Audit trail: logujeme každý prompt a response. Kdo se ptal, na co, co dostal za odpověď. Pro regulované odvětví nutnost.
Content filter: Azure OpenAI má built-in content filtering. Plus vlastní validace — odpověď nesmí obsahovat competitive info, finanční rady, právní závěry bez disclaimeru.
Náklady a škálování¶
GPT-4 Turbo: ~300 Kč za milion input tokenů. Pro 1000 dotazů denně (průměrně 2000 tokenů/dotaz) to je ~20 Kč/den. Levné. Ale embeddingy, vektorová DB, infrastruktura — celkový TCO je vyšší. Počítejte s 20-50 tisíc Kč/měsíc pro produkční RAG systém.
Co nefunguje (zatím)¶
Přesnost pro kritické rozhodování: LLM hallucinate. Pro systém, kde chyba = finanční ztráta, potřebujete human-in-the-loop. Strukturovaný output: JSON extraction z nestrukturovaného textu je stále nespolehlivé (function calling pomáhá, ale ne 100 %).
LLM je infrastruktura, ne produkt¶
Nezavrhujte to jako hype, ale nemyslete si, že ChatGPT wrapper je enterprise řešení. RAG, guardrails, monitoring, bezpečnost — to dělá z LLM demo produkční systém. A ten rozdíl je 80 % práce.