„Chceme AI.” Tuhle větu slyšíme od klientů stále častěji. Problém je, že většinou nevědí co přesně chtějí, nemají připravená data a očekávají zázraky. Po dvou letech budování ML capability v naší firmě máme realistický pohled na to, kde AI v enterprise funguje a kde ne.
Kde začít — use cases, ne technologie¶
Nezačínejte výběrem frameworku (TensorFlow vs. PyTorch). Začněte otázkou: jaký business problém řeším? Naše první úspěšné use cases:
- Predikce churn: pojišťovna — kteří klienti odejdou? Gradient boosting model, přesnost 82 %. ROI: 15 % snížení churn = miliony Kč ročně.
- Anomaly detection: banka — podezřelé transakce. Isolation Forest, snížení false positives o 40 %.
- Document classification: pojišťovna — automatické třídění příchozích dokumentů. NLP + klasifikátor, 91 % přesnost.
Data readiness — 80 % práce¶
ML model je tak dobrý, jako jsou data. A data v typické české enterprise firmě jsou… suboptimální. Duplikáty, chybějící hodnoty, nekonzistentní formáty, data silos. Než začnete modelovat, potřebujete:
- Data audit — co máte, kde to je, jaká je kvalita
- Data pipeline — ETL/ELT do analytického úložiště
- Feature engineering — transformace raw dat na features pro model
- Governance — kdo vlastní data, GDPR compliance, přístupy
Na churn predikci pro pojišťovnu jsme 3 měsíce čistili a připravovali data, 2 týdny trénovali model. Poměr odpovídá realitě.
MLOps — model v produkci je teprve začátek¶
Natrénovat model v Jupyter notebooku zvládne každý datový analytik. Dostat ten model do produkce a udržet ho tam — to je inženýrský problém. MLOps stack, který používáme:
- MLflow pro experiment tracking a model registry
- Airflow pro orchestraci training pipeline
- Docker + Kubernetes pro serving (Flask API v kontejneru)
- Prometheus + Grafana pro monitoring predikcí
Model drift je reálný problém. Churn model trénovaný na pre-covid datech po covidu přestal fungovat — chování klientů se změnilo. Automatický retraining s monitoring accuracy je nutnost.
Očekávání vs. realita¶
Management čeká: „AI vyřeší náš problém za měsíc.” Realita: data příprava 3 měsíce, PoC 1 měsíc, productionization 2 měsíce, iterace průběžně. Celkově 6-9 měsíců do hodnoty. A ne každý use case se vyplatí.
Build vs. buy¶
Pro standardní use cases (OCR, sentiment analysis, translation) — cloud AI služby (Azure Cognitive Services, AWS Comprehend). Levnější a rychlejší než vlastní model. Pro domain-specific problémy (churn v české pojišťovně) — vlastní model, protože pre-trained modely nerozumí lokálním specifikům.
AI je nástroj, ne magie¶
Začněte s jasným business problémem. Investujte do dat dřív než do modelů. Plánujte MLOps od začátku. A hlavně — mějte realistická očekávání. AI v enterprise není ChatGPT demo — je to inženýrský projekt jako každý jiný.