Reálné náklady AI v produkci 2026¶
„AI je levné” říkají vendor slajdy. Realita: enterprise firma s 50 000 dotazy denně na GPT-4 class modelu platí $15 000–$45 000 měsíčně jen za inference. A to nezahrnuje embeddingy, fine-tuning ani infrastrukturu. Tohle je průvodce skutečnými náklady — a strategiemi, které je snižují o 50–80 %.
Pricing landscape začátkem 2026¶
Trh s LLM API prošel za poslední rok masivní cenovou válkou. Ceny klesly o 60–90 % oproti začátku 2024. Ale pozor — cena za token je jen část příběhu. Reálné náklady závisí na tom, kolik tokenů generujete, a output tokeny jsou 3–5× dražší než input.
| Model (Q1 2026) | Input / 1M tokenů | Output / 1M tokenů | Typický use case |
|---|---|---|---|
| GPT-4.1 | $2.00 | $8.00 | General purpose, coding |
| GPT-4.1 mini | $0.40 | $1.60 | Cost-efficient tasks |
| Claude Sonnet 4 | $3.00 | $15.00 | Complex reasoning, coding |
| Claude Haiku 3.5 | $0.80 | $4.00 | Fast responses, classification |
| Claude Opus 4 | $15.00 | $75.00 | Frontier reasoning |
| Gemini 2.5 Pro | $1.25 | $10.00 | Multimodal, long context |
| Gemini 2.5 Flash | $0.15 | $0.60 | High-volume, low-cost |
| DeepSeek V3 | $0.28 | $0.42 | Budget reasoning |
| Llama 3.3 70B (self-hosted) | ~$0.20* | ~$0.20* | On-premise, data sovereignty |
* Self-hosted cena je orientační — závisí na GPU hardware, utilizaci a amortizaci. Zahrnuje A100/H100 hosting + electricity.
Co stojí jeden dotaz: cost per query breakdown¶
Typický enterprise dotaz (RAG pipeline s kontextem) má průměrně 2 000 input tokenů (prompt + retrieved context) a 500 output tokenů (odpověď). Na tomto základu:
| Model | Cost per query | 50K queries/den | Měsíčně |
|---|---|---|---|
| GPT-4.1 | $0.008 | $400 | $12 000 |
| GPT-4.1 mini | $0.0016 | $80 | $2 400 |
| Claude Sonnet 4 | $0.0135 | $675 | $20 250 |
| Claude Haiku 3.5 | $0.0036 | $180 | $5 400 |
| Gemini 2.5 Flash | $0.0006 | $30 | $900 |
| DeepSeek V3 | $0.00077 | $38.50 | $1 155 |
Rozdíl mezi nejdražší a nejlevnější variantou je 22×. A to mluvíme o jednoduchém RAG dotazu. U agentních systémů, kde jeden user request generuje 5–15 LLM callů, se náklady násobí.
Skryté náklady, které vendor nezmíní¶
API pricing je špička ledovce. Kompletní TCO zahrnuje:
- Embedding generation — každý dokument v knowledge base musí projít embedding modelem. Pro 100K dokumentů to je jednorázově $50–200, ale re-indexing při updatu stojí průběžně
- Vector database hosting — Pinecone $70+/měsíc, managed Qdrant $100+/měsíc, self-hosted vyžaduje RAM (1M vektorů ≈ 4–8 GB RAM)
- Prompt engineering a evals — 20–40 % engineering času jde do promptů, testování a iterací. To je váš nejdražší náklad
- Observability — LangSmith, Langfuse, custom — $200–2 000/měsíc pro produkční monitoring
- Guardrails a safety — content filtering, PII detection, compliance checks — další latence a náklady
- Retry a error handling — rate limits, 5xx errors, timeout retry = 10–20 % extra callů
Reálný příklad: enterprise chatbot¶
Firma s 2 000 zaměstnanci, interní knowledge base chatbot. 50 000 dotazů/den, RAG pipeline s Claude Sonnet.
API inference: $20 250/měsíc · Embeddings + vector DB: $500/měsíc · Observability: $500/měsíc · Engineering (0.5 FTE): $5 000/měsíc
Celkem: ~$26 250/měsíc = $315 000/rok
Strategie #1: Semantic caching¶
Nejjednodušší a nejefektivnější optimalizace. 30–60 % dotazů v enterprise chatbotech se opakuje (nebo je sémanticky podobných). Místo nového LLM callu vrátíte cachovanou odpověď.
- Jak to funguje: Dotaz → embedding → similarity search v cache → pokud similarity > 0.95, vrať cachovanou odpověď
- Nástroje: GPTCache, Redis + vector search, vlastní implementace s pgvector
- Typická úspora: 30–50 % API callů, latence z 2–5s na <100ms pro cache hit
- Pozor na: Invalidace cache při změně knowledge base, TTL policy, cache poisoning
Strategie #2: Model routing (smart cascading)¶
Ne každý dotaz potřebuje frontier model. „Kolik máme zaměstnanců?” zvládne model za $0.0006/query. „Analyzuj tento kontrakt a identifikuj rizika” potřebuje model za $0.013/query.
- Princip: Classifier (malý model nebo rule-based) zhodnotí složitost dotazu a routuje na odpovídající model
- Architektura: Input → Complexity classifier → Router → [Small model | Medium model | Large model]
- Typický split: 60 % small model, 30 % medium, 10 % large = průměrná cena klesne o 60–70 %
- Nástroje: Martian, Portkey, Unify.ai, nebo custom router s embeddings-based classification
Routing v praxi: úspora 68 %¶
Bez routingu: 50 000 dotazů × Claude Sonnet = $20 250/měsíc
S routingem: 30 000 × Gemini Flash ($900) + 15 000 × GPT-4.1 mini ($720) + 5 000 × Claude Sonnet ($2 025) = $3 645/měsíc
Úspora: $16 605/měsíc (82 %)
Strategie #3: Prompt optimization¶
Každý zbytečný token stojí peníze. A většina promptů je 2–3× delší, než musí být.
- System prompt audit: Zkraťte system prompts. 500 tokenů instrukce → 150 tokenů s stejným výsledkem = 70 % úspora na system prompt overhead
- Context window management: Neposílejte celou konverzační historii. Sumarizujte, ořezávejte, nebo použijte sliding window
- Retrieved context pruning: RAG často vrací 5–10 chunků. Reranker (Cohere Rerank, BGE Reranker) vybere top 2–3, zbytek zahodí
- Output length control: Definujte max_tokens. Bez limitu model generuje, dokud nechce přestat — a output tokeny jsou 3–5× dražší
Strategie #4: Knowledge distillation¶
Máte frontier model, který zvládá váš use case výborně? Distillujte jeho znalosti do menšího modelu. Výsledek: 90 % kvality za 10 % ceny.
- Proces: Velký model generuje training data → Fine-tune malý model na těchto datech → Deploy malý model
- Příklad: GPT-4 generuje 10 000 příkladů pro klasifikaci ticketů → Fine-tune Llama 3.3 8B → Deploy na vlastní GPU za $0.0002/query
- Kdy to funguje: Úlohy s jasně definovaným scope (klasifikace, extrakce, sumarizace). Nefunguje pro open-ended reasoning
- Nástroje: OpenAI fine-tuning API, Anyscale, Modal, vlastní training pipeline s PEFT/LoRA
Strategie #5: Self-hosting pro high-volume¶
Od určitého objemu je self-hosting levnější než API. Break-even point závisí na modelu a utilizaci:
| Setup | Měsíční náklad | Break-even vs API |
|---|---|---|
| Llama 3.3 70B na 2× A100 (cloud) | ~$4 500 | ~150K queries/den vs GPT-4.1 |
| Llama 3.3 8B na 1× L40S (cloud) | ~$800 | ~25K queries/den vs GPT-4.1 mini |
| Mistral 7B on-premise (1× A100) | ~$200 (electricity) | Okamžitě, ale CapEx $15K–25K |
Self-hosting má smysl, když: (a) objem překročí break-even, (b) data nesmí opustit vaši infrastrukturu (regulace, compliance), nebo (c) potřebujete custom model a fine-tuning je jednodušší lokálně.
Bonus: Prompt caching od providerů¶
Anthropic i OpenAI nabízejí prompt caching na úrovni API — opakované prefixy (system prompt, konverzační kontext) se cachují a účtují se levněji:
- Anthropic: Cached input za 10 % standardní ceny (90 % sleva). Cache write za 125 % standardní ceny. TTL 5 minut
- OpenAI: Automatické cachování pro opakované prefixy. Cached input za 50 % standardní ceny
- Dopad: Pro RAG pipeline s 1 500 tokenů system prompt a 500 tokenů context — cache hit ušetří 50–90 % input costs
Optimalizační roadmap: od dne 1 po měsíc 6¶
- Týden 1–2: Instrumentace — Přidejte metriky: cost per request, tokens in/out, latence, model. Bez dat neoptimalizujete
- Týden 3–4: Prompt optimization — Zkraťte prompty, přidejte reranker, nastavte max_tokens. Úspora: 20–30 %
- Měsíc 2: Semantic caching — Implementujte cache pro opakované dotazy. Úspora: dalších 20–40 %
- Měsíc 3: Model routing — Classifier + multi-model setup. Úspora: dalších 30–50 %
- Měsíc 4–6: Distillation/self-hosting — Pro high-volume, well-defined tasks. Úspora: dalších 50–80 % na těchto tasks
Závěr¶
AI v produkci nemusí stát statisíce. Ale bez optimalizace bude. Klíčové poznatky:
- Cena za token je jen část TCO — engineering time, observability a infra jsou často dražší než API
- Model routing je single biggest win — 60–80 % úspora s minimální ztrátou kvality
- Semantic caching je quick win s ROI do 2 týdnů
- Self-hosting dává smysl od 100K+ queries/den nebo při compliance požadavcích
- Začněte instrumentací — co neměříte, neoptimalizujete