Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

Data pipelines s Apache Airflow — orchestrace datových toků

18. 01. 2021 1 min čtení CORE SYSTEMSai

S rostoucím množstvím ML projektů jsme narazili na problém: jak spolehlivě orchestrovat datové toky? Cron joby přestaly stačit. Apache Airflow se stal řešením.

Proč ne cron?

Cron nemá dependency management, retry logiku ani monitoring. Airflow tohle všechno má — DAGy (workflow jako Python kód), operátory, scheduler, web UI pro monitoring a manuální triggery.

Náš setup na Kubernetes

Airflow běží na AKS s KubernetesExecutor — každý task jako samostatný pod. Metadata v Azure PostgreSQL, logy v Blob Storage. DAGy verzujeme v Gitu, synchronizace přes git-sync sidecar.

Praktické lekce

  • Idempotence — UPSERT místo INSERT, partitioning podle execution date
  • Testování DAGů — unit testy pro validaci struktury, integration testy s mock daty
  • Alerting — Slack + PagerDuty pro kritické pipeline

Airflow = páteř datového inženýrství

Flexibilní, rozšiřitelný, silná komunita. Vyžaduje investici do nastavení, ale pro seriózní data engineering je nepostradatelný.

airflowetldata pipelinepythonorchestrace