DataHub zentralisiert Metadaten aus dem gesamten Data Stack — automatisches Lineage, Suche, Tagging und Governance.
DataHub — Zentraler Hub für Metadaten¶
Löst das Problem — wo Daten zu finden sind und wie man ihnen vertrauen kann.
Funktionen¶
- Automatische Ingestion — 50+ Konnektoren
- Lineage — automatische Abhängigkeitszuordnung
- Suche — Volltextsuche
- Ownership — Eigentümer zuweisen
# DataHub — Offener Datenkatalog für den modernen Data Stack
source:
type: postgres
config:
host_port: "warehouse:5432"
database: analytics
profiling:
enabled: true
sink:
type: datahub-rest
config:
server: "http://datahub:8080"
Praktischer Einsatz¶
DataHub wird typischerweise als Docker-Compose-Stack oder auf Kubernetes mit einem Helm Chart bereitgestellt. Nach dem Start konfigurieren Sie Ingestion Recipes fuer einzelne Datenquellen — PostgreSQL, Snowflake, Airflow, dbt und Dutzende weitere. Die Ingestion laeuft periodisch (Cron) oder als Teil einer CI/CD-Pipeline.
Der groesste Wert von DataHub liegt im automatischen Column-Level-Lineage — Sie sehen, woher Daten stammen und wohin sie fliessen, bis auf die Ebene einzelner Spalten. Das vereinfacht die Fehlersuche bei Datenproblemen und die Impact-Analyse bei Schema-Aenderungen erheblich. Fuer Teams, die Dutzende Datenbanken und Hunderte Tabellen verwalten, ist ein Datenkatalog ein unverzichtbares Werkzeug fuer Data Governance und die Reduzierung der Suchzeit nach den richtigen Daten.
Zusammenfassung¶
DataHub ist der führende Open-Source-Katalog mit automatischem Lineage und umfangreichen Integrationen.