Trh s velkými jazykovými modely se v roce 2026 radikálně změnil. Místo dvou hráčů máte desítky produkčně použitelných modelů od Anthropic, OpenAI, Google, Meta a dalších. Výběr správného modelu pro enterprise nasazení přestal být otázkou „který je nejlepší” a stal se inženýrským rozhodnutím s konkrétními trade-offs. Tady je náš framework, jak se v tom zorientovat.
Krajina modelů v roce 2026¶
Než se pustíme do kritérií výběru, zmapujme si terén. Trh se rozdělil do tří jasných kategorií, každá s odlišnými vlastnostmi a deployment modely.
Proprietární frontier modely¶
Claude 4 (Anthropic) — v tuto chvíli nejsilnější model pro komplexní reasoning, analýzu dokumentů a code generation. Context window 200K tokenů, vynikající instruction following a nejnižší míra halucinací v nezávislých benchmarcích. Cena: ~$15/M input, ~$75/M output tokenů pro Opus variantu; Sonnet nabízí 80 % výkonu za třetinovou cenu.
GPT-5 (OpenAI) — dominuje v multimodálních úlohách a má nejširší ekosystém integrací. Silný v generování strukturovaných dat a function calling. Dostupný přes Azure OpenAI Service, což je klíčové pro enterprise klienty s existujícími Azure smlouvami. Cena srovnatelná s Claude Opus.
Gemini 2.0 Ultra (Google) — největší context window (2M tokenů), nejlepší price-performance pro dlouhé dokumenty. Nativní integrace s Google Cloud a Vertex AI pipeline. Zajímavý pro firmy v Google ekosystému.
Open-source a open-weight modely¶
Rok 2026 je zlomový pro open-source. Llama 4 (Meta) s 405B parametry dosahuje v mnoha benchmarcích úrovně GPT-4o z roku 2024. Mistral Large 3 exceluje v evropských jazycích včetně češtiny. Qwen 3 (Alibaba) nabízí nejlepší poměr výkon/velikost pro nasazení na vlastním hardware.
Klíčová výhoda: plná kontrola nad daty. Žádný request neopouští vaši infrastrukturu. Pro regulovaná odvětví (bankovnictví, zdravotnictví, obrana) je to často nepřekonatelný argument. Nevýhoda: provozní náklady na GPU infrastrukturu a potřeba ML ops týmu.
Specializované a domácí modely¶
Roste kategorie modelů trénovaných na specifické domény: Med-PaLM 3 pro zdravotnictví, BloombergGPT 2 pro finance, právní modely od Harvey AI. Tyto modely nabízejí vyšší accuracy v úzké doméně, ale jsou méně flexibilní. Pro enterprise to dává smysl, pokud máte jasně ohraničený use case.
5 kritérií, která rozhodují¶
Benchmarky jsou užitečné jako první filtr, ale enterprise výběr se řídí jinými faktory. Tady je pět kritérií, která v praxi rozhodují — seřazená podle toho, jak často jsou podceněná.
1. Data privacy a regulatory compliance¶
Pro banky, zdravotnictví a veřejnou správu je tohle kritérium č. 1 — a eliminuje většinu možností ještě před jakýmkoliv technickým hodnocením. Otázky, které musíte zodpovědět: Kde fyzicky běží inference? Kdo má přístup k datům v kontextu? Jaké jsou podmínky data retention? Je provider certifikován (SOC 2, ISO 27001, C5)?
EU AI Act kategorizuje systémy podle rizika. Pokud váš model rozhoduje o úvěrech, zaměstnávání nebo zdravotní péči, spadáte do high-risk kategorie s požadavky na dokumentaci, lidský dohled a conformity assessment.
2. Latence a throughput¶
Reálná latence v produkci se dramaticky liší od toho, co naměříte v playgroundu. Frontier modely mají typicky time-to-first-token 200–800 ms a throughput 30–80 tokenů/s. Pro interaktivní aplikace (chatbot, copilot) potřebujete TTFT pod 500 ms. Pro batch processing (analýza dokumentů, generování reportů) je důležitější throughput a cena za token.
Menší modely (7B–70B) na dedikovaném hardware dosahují TTFT pod 100 ms. Pokud je latence kritická — a v customer-facing aplikacích vždy je — zvažte menší specializovaný model místo frontier gigantu.
3. Total cost of ownership¶
Cena za token je jen špička ledovce. Skutečné TCO zahrnuje: API náklady (nebo GPU infrastrukturu), engineering time na integraci a údržbu, eval pipeline a monitoring, incident response a on-call rotaci. Typický enterprise deployment s frontier modelem stojí $5 000–$25 000/měsíc na API při středním volume (100K–500K requestů denně). On-premise alternativa s open-source modelem na 4× A100 stojí ~$15 000/měsíc na infrastrukturu, ale škáluje se lineárněji.
4. Accuracy na vašich datech¶
Obecné benchmarky (MMLU, HumanEval) korelují s reálným výkonem jen slabě. To, co rozhoduje, je accuracy na vašich konkrétních úlohách s vašimi daty. Proto je eval pipeline tak důležitý — potřebujete golden dataset s alespoň 200–500 příklady specifickými pro vaši doménu a automatizované vyhodnocování při každé změně promptu nebo modelu.
V praxi často vidíme, že Claude Sonnet s dobrým promptem překoná GPT-5 s průměrným promptem — a naopak. Model je jen jedna proměnná. Prompt, kontext a retrieval pipeline mají na výsledek často větší vliv.
5. Ekosystém a vendor lock-in¶
Jak snadné je model vyměnit? Máte abstrakční vrstvu, která umožňuje swap providera bez rewrite aplikace? V CORE SYSTEMS standardně nasazujeme model-agnostic abstrakční layer (LiteLLM nebo vlastní wrapper), který umožňuje přepnout z Claude na GPT nebo na on-premise Llama bez změny aplikačního kódu. V roce 2026 je vendor lock-in na jednoho LLM providera strategická chyba.
On-premise vs. cloud: rozhodovací framework¶
Nejčastější otázka, kterou od CTO slyšíme: „Máme si model provozovat sami, nebo jet přes API?” Odpověď závisí na třech faktorech.
Cloud API¶
Rychlý start, žádné GPU investice, vždy nejnovější model. Ideální pro: PoC, variabilní load, non-regulated data, rychlou iteraci.
On-premise / private cloud¶
Plná kontrola nad daty, prediktabilní náklady při vysokém volume. Ideální pro: regulovaná odvětví, citlivá data, stálý vysoký traffic.
Hybrid¶
Citlivá data na on-prem modelu, obecné úlohy přes cloud API. Nejčastější pattern u enterprise klientů v roce 2026.
Virtual Private Cloud¶
Azure OpenAI, AWS Bedrock, GCP Vertex — frontier modely ve vašem VPC. Kompromis: síla frontier modelu + data residency.
Většina našich klientů volí hybridní přístup: menší open-source model (Llama 4 70B, Mistral Large) běží on-premise pro úlohy s citlivými daty (PII, finanční data, zdravotní záznamy). Frontier model přes API řeší komplexní reasoning a úlohy, kde je accuracy kritičtější než privacy.
Fine-tuning vs. RAG vs. prompt engineering¶
Tři přístupy, jak přizpůsobit model vaší doméně. Nejsou vzájemně exkluzivní — v praxi je kombinujeme. Ale každý má jiné náklady, timeline a vhodné use cases.
| Přístup | Kdy použít | Timeline | Náklady |
|---|---|---|---|
| Prompt engineering | Vždy jako základ. 80 % use cases vyřešíte dobrým promptem + few-shot příklady. | Dny | Nízké |
| RAG | Model potřebuje přístup k aktuálním nebo proprietárním datům (dokumentace, knowledge base, interní wiki). | 2–4 týdny | Střední |
| Fine-tuning | Potřebujete změnit chování modelu (tón, formát, doménová terminologie) nebo dosáhnout konzistentního výstupu na specifickém task. | 4–8 týdnů | Vysoké |
Naše doporučení: začněte vždy prompt engineeringem. Pokud to nestačí, přidejte RAG pro znalostní kontext. Fine-tuning použijte až jako poslední krok — a pouze pokud máte alespoň 1 000 kvalitních trénovacích příkladů a jasnou metriku, kterou chcete zlepšit. Fine-tuning bez eval pipeline je střelba naslepo.
Častá chyba: firmy investují do fine-tuningu, když problém je ve špatném retrievalu. Model nehalucinuje, protože „nezná doménu” — halucinuje, protože mu RAG pipeline vrací irelevantní chunky. Opravte retrieval, ne model.
Praktická rozhodovací matice¶
Na základě desítek enterprise nasazení jsme sestavili rozhodovací matici. Najděte svůj primární use case a podívejte se na doporučení.
| Use case | Doporučený model | Deployment | Přístup |
|---|---|---|---|
| Interní knowledge base / helpdesk | Claude Sonnet / GPT-4o mini | Cloud API | RAG + prompt eng. |
| Analýza smluv a dokumentů | Claude Opus / GPT-5 | VPC (Azure/AWS) | RAG + few-shot |
| Code review a generování | Claude Sonnet / GPT-5 | Cloud API | Prompt eng. |
| Customer support agent | Claude Sonnet / Llama 4 70B | Hybrid | RAG + fine-tuning |
| Fraud detection (bankovnictví) | Llama 4 / Mistral Large | On-premise | Fine-tuning |
| Generování reportů | Gemini 2.0 / Claude Sonnet | Cloud API | Prompt eng. + RAG |
| Zdravotnická dokumentace | Med-PaLM 3 / Llama 4 fine-tuned | On-premise | Fine-tuning + RAG |
Matice je orientační — každý projekt má specifika. Ale pomáhá jako startovní bod pro diskusi s technickým i business týmem.
Jak to děláme v CORE SYSTEMS¶
Výběr modelu není jednorázové rozhodnutí — je to proces, který opakujeme s každým klientem. Náš přístup má tři fáze.
Fáze 1: Discovery (1–2 týdny). Zmapujeme use case, datové zdroje, regulatorní požadavky a existující infrastrukturu. Definujeme metriky úspěchu a golden dataset pro evaluaci. Na konci máme shortlist 2–3 modelů.
Fáze 2: Benchmark na vašich datech (2–3 týdny). Shortlistované modely testujeme na vašem golden datasetu. Měříme accuracy, latenci, cost per request a edge cases. Výstupem je kvantitativní srovnání — ne obecné benchmarky, ale čísla specifická pro váš use case.
Fáze 3: MVP a iterace (4–6 týdnů). Nasadíme vybraný model do produkce s plným eval pipeline, monitoringem a A/B testováním. Model-agnostic abstrakce umožňuje swap providera, pokud se změní podmínky — a v AI trhu se podmínky mění každý kvartál.
Závěr: Nejlepší model je ten, který vyřeší váš problém¶
Honba za „nejlepším modelem” je past. V enterprise nasazení neexistuje jeden univerzálně nejlepší model — existuje nejlepší model pro váš konkrétní use case, vaše data, vaše regulatorní prostředí a váš budget.
Klíčové poučení z desítek enterprise nasazení: investujte víc času do eval pipeline než do výběru modelu. Modely se mění každé 3 měsíce. Dobrý eval pipeline vám řekne, kdy je čas přepnout — a díky model-agnostic architektuře to bude otázka hodin, ne měsíců.
Pokud si nejste jistí, kde začít — ozvěte se. Pomůžeme vám zorientovat se a najít řešení, které dává smysl pro váš byznys.