Natrénovat model je polovina práce. Dostat ho do produkce, monitorovat performance a bezpečně updatovat — to je ta druhá, těžší polovina.
Model Serving na Kubernetes¶
Seldon Core pro orchestraci model serving na Kubernetes. Inference graph: pre-processing → model → post-processing. Automatický scaling podle request rate. REST i gRPC endpointy.
A/B testing ML modelů¶
Nový model nechceme nasadit na 100 % trafficu najednou. Canary deployment: 5 % trafficu na nový model, 95 % na stávající. Porovnáme business metriky (conversion rate, ne jen accuracy). Pokud nový model vyhrává → postupný rollout.
Model monitoring¶
Sledujeme: prediction latency, error rate, feature drift (distribuce vstupních dat se mění?), prediction drift (model predikuje jinak?). Alibi Detect pro drift detection, alerting při překročení thresholdů.
ML v produkci = continuous delivery¶
Model deployment je DevOps problém. A/B testing, canary release a monitoring — stejné principy jako pro software.