„Proč je v reportu záporný počet zákazníků?” — otázka, kterou nechcete slyšet od CEO. Data quality testy zabrání tomu, aby se špatná data dostala k uživatelům.
Great Expectations¶
Great Expectations je Python framework pro validaci dat. Definujete „expectations” (předpoklady o datech) jako kód:
expect_column_values_to_not_be_null("customer_id")expect_column_values_to_be_between("age", 0, 150)expect_column_values_to_be_unique("email")expect_table_row_count_to_be_between(1000, 1000000)
Integrace s pipeline¶
V Airflow DAGu: po každém ETL kroku spustíme validaci. Pokud expectations selžou, pipeline se zastaví a notifikuje tým. Špatná data nikdy nedorazí do analytics vrstvy.
Data docs¶
Great Expectations generuje HTML report s výsledky validace — přehledná vizualizace co prošlo, co selhalo a proč. Sdílíme s business stakeholders jako důkaz datové kvality.
Testujte data, ne jen kód¶
Kód testujeme unit testy. Data potřebují stejný přístup — automatizované, verzované, součást pipeline.