DataHub — Offener Datenkatalog für den modernen Data Stack

DataHub zentralisiert Metadaten aus dem gesamten Data Stack — automatisches Lineage, Suche, Tagging und Governance.

DataHub — Zentraler Hub für Metadaten¶

Löst das Problem — wo Daten zu finden sind und wie man ihnen vertrauen kann.

Funktionen¶

Automatische Ingestion — 50+ Konnektoren
Lineage — automatische Abhängigkeitszuordnung
Suche — Volltextsuche
Ownership — Eigentümer zuweisen

# DataHub — Offener Datenkatalog für den modernen Data Stack
source:
  type: postgres
  config:
    host_port: "warehouse:5432"
    database: analytics
    profiling:
      enabled: true
sink:
  type: datahub-rest
  config:
    server: "http://datahub:8080"

Praktischer Einsatz¶

DataHub wird typischerweise als Docker-Compose-Stack oder auf Kubernetes mit einem Helm Chart bereitgestellt. Nach dem Start konfigurieren Sie Ingestion Recipes fuer einzelne Datenquellen — PostgreSQL, Snowflake, Airflow, dbt und Dutzende weitere. Die Ingestion laeuft periodisch (Cron) oder als Teil einer CI/CD-Pipeline.

Der groesste Wert von DataHub liegt im automatischen Column-Level-Lineage — Sie sehen, woher Daten stammen und wohin sie fliessen, bis auf die Ebene einzelner Spalten. Das vereinfacht die Fehlersuche bei Datenproblemen und die Impact-Analyse bei Schema-Aenderungen erheblich. Fuer Teams, die Dutzende Datenbanken und Hunderte Tabellen verwalten, ist ein Datenkatalog ein unverzichtbares Werkzeug fuer Data Governance und die Reduzierung der Suchzeit nach den richtigen Daten.

Zusammenfassung¶

DataHub ist der führende Open-Source-Katalog mit automatischem Lineage und umfangreichen Integrationen.

datahubdata catalogmetadatalineage

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Alle Artikel

DataHub — Offener Datenkatalog für den modernen Data Stack

DataHub — Zentraler Hub für Metadaten¶

Funktionen¶

Praktischer Einsatz¶

Zusammenfassung¶

CORE SYSTEMS Team

Mehr Know-how

Vektordatenbanken: Pinecone vs Weaviate vs Qdrant vs pgvector

Read Replicas — Leseskalierung

ClickHouse — Spaltenbasierte Datenbank für schnelle Analytik

Docker Compose für die Entwicklung