Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

Data Quality s Great Expectations — testování dat jako kódu

28. 02. 2022 1 min čtení CORE SYSTEMSdevelopment

„Proč je v reportu záporný počet zákazníků?” — otázka, kterou nechcete slyšet od CEO. Data quality testy zabrání tomu, aby se špatná data dostala k uživatelům.

Great Expectations

Great Expectations je Python framework pro validaci dat. Definujete „expectations” (předpoklady o datech) jako kód:

  • expect_column_values_to_not_be_null("customer_id")
  • expect_column_values_to_be_between("age", 0, 150)
  • expect_column_values_to_be_unique("email")
  • expect_table_row_count_to_be_between(1000, 1000000)

Integrace s pipeline

V Airflow DAGu: po každém ETL kroku spustíme validaci. Pokud expectations selžou, pipeline se zastaví a notifikuje tým. Špatná data nikdy nedorazí do analytics vrstvy.

Data docs

Great Expectations generuje HTML report s výsledky validace — přehledná vizualizace co prošlo, co selhalo a proč. Sdílíme s business stakeholders jako důkaz datové kvality.

Testujte data, ne jen kód

Kód testujeme unit testy. Data potřebují stejný přístup — automatizované, verzované, součást pipeline.

data qualitygreat expectationstestingdbtdata pipeline