MLflow nám slouží pro experiment tracking, ale pro end-to-end ML pipelines potřebujeme víc. Testovali jsme Kubeflow (self-hosted) a Vertex AI (managed).
Kubeflow na AKS¶
Open-source ML platforma na Kubernetes. Pipelines jako DAGy, Jupyter notebooks, Katib pro hyperparameter tuning, KFServing pro model serving. Výhoda: plná kontrola. Nevýhoda: operačně náročné — upgradovat Kubeflow je jako upgradovat malý operační systém.
Vertex AI (GCP)¶
Managed ML platforma od Google. AutoML pro ne-ML inženýry, custom training jobs, managed pipelines, model monitoring. Výhoda: zero ops. Nevýhoda: vendor lock-in, cena.
Naše rozhodnutí¶
Hybridní přístup: Kubeflow pipelines pro custom workloady na AKS, Vertex AI AutoML pro rychlé prototypy a menší projekty. MLflow jako společný experiment tracker pro obě platformy.
Neexistuje jedna správná platforma¶
Záleží na týmu, budgetu a požadavcích na kontrolu vs. jednoduchost.