Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

DataHub — Offener Datenkatalog für den modernen Data Stack

23. 02. 2025 Aktualisiert: 27. 03. 2026 1 Min. Lesezeit intermediate

DataHub zentralisiert Metadaten aus dem gesamten Data Stack — automatisches Lineage, Suche, Tagging und Governance.

DataHub — Zentraler Hub für Metadaten

Löst das Problem — wo Daten zu finden sind und wie man ihnen vertrauen kann.

Funktionen

  • Automatische Ingestion — 50+ Konnektoren
  • Lineage — automatische Abhängigkeitszuordnung
  • Suche — Volltextsuche
  • Ownership — Eigentümer zuweisen
# DataHub — Offener Datenkatalog für den modernen Data Stack
source:
  type: postgres
  config:
    host_port: "warehouse:5432"
    database: analytics
    profiling:
      enabled: true
sink:
  type: datahub-rest
  config:
    server: "http://datahub:8080"

Praktischer Einsatz

DataHub wird typischerweise als Docker-Compose-Stack oder auf Kubernetes mit einem Helm Chart bereitgestellt. Nach dem Start konfigurieren Sie Ingestion Recipes fuer einzelne Datenquellen — PostgreSQL, Snowflake, Airflow, dbt und Dutzende weitere. Die Ingestion laeuft periodisch (Cron) oder als Teil einer CI/CD-Pipeline.

Der groesste Wert von DataHub liegt im automatischen Column-Level-Lineage — Sie sehen, woher Daten stammen und wohin sie fliessen, bis auf die Ebene einzelner Spalten. Das vereinfacht die Fehlersuche bei Datenproblemen und die Impact-Analyse bei Schema-Aenderungen erheblich. Fuer Teams, die Dutzende Datenbanken und Hunderte Tabellen verwalten, ist ein Datenkatalog ein unverzichtbares Werkzeug fuer Data Governance und die Reduzierung der Suchzeit nach den richtigen Daten.

Zusammenfassung

DataHub ist der führende Open-Source-Katalog mit automatischem Lineage und umfangreichen Integrationen.

datahubdata catalogmetadatalineage
Teilen:

CORE SYSTEMS Team

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.