Jeden PoC: $50/měsíc. Produkce pro 10K users: $15K/měsíc. Bez cost managementu AI rozpočet exploduje.
Kde mizí peníze¶
- Redundantní kontext: 80% irelevantních tokenů v RAG
- Zbytečný GPT-4: 70% requestů zvládne levnější model
- Retry storms: Chybné requesty bez backoff
- Dev waste: Testování na produkčních modelech
Optimalizace¶
Model routing: Classifier rozhodne tier — úspora 40-60%. Prompt optimization: Kratší = levnější. Semantic cache: Podobné dotazy → cached odpověď. Batch: Kde nepotřebujete real-time.
Dashboard¶
Cost per request, per user, per feature, per model. Alert na anomálie (+50% over baseline).
AI FinOps je nová disciplína¶
Sledujte náklady od dne jedna. Model routing a semantic cache jsou quick wins.