S rostoucím množstvím ML projektů jsme narazili na problém: jak spolehlivě orchestrovat datové toky? Cron joby přestaly stačit. Apache Airflow se stal řešením.
Proč ne cron?¶
Cron nemá dependency management, retry logiku ani monitoring. Airflow tohle všechno má — DAGy (workflow jako Python kód), operátory, scheduler, web UI pro monitoring a manuální triggery.
Náš setup na Kubernetes¶
Airflow běží na AKS s KubernetesExecutor — každý task jako samostatný pod. Metadata v Azure PostgreSQL, logy v Blob Storage. DAGy verzujeme v Gitu, synchronizace přes git-sync sidecar.
Praktické lekce¶
- Idempotence — UPSERT místo INSERT, partitioning podle execution date
- Testování DAGů — unit testy pro validaci struktury, integration testy s mock daty
- Alerting — Slack + PagerDuty pro kritické pipeline
Airflow = páteř datového inženýrství¶
Flexibilní, rozšiřitelný, silná komunita. Vyžaduje investici do nastavení, ale pro seriózní data engineering je nepostradatelný.