Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

Lakehouse architektura — spojení data lake a warehouse

01. 01. 2024 1 min čtení intermediate

Lakehouse sjednocuje data lake a warehouse do jedné vrstvy. Open table formats, medalionová architektura a unifikovaný přístup k datům.

Od warehouse a lake k lakehouse

Medalionová architektura

  • Bronze — surová data, append-only
  • Silver — vyčištěná, validovaná
  • Gold — business agregace
# Bronze: ingestion z Kafka
bronze.writeStream.format("delta")
    .start("/lakehouse/bronze/orders")

# Silver: čištění
silver = spark.read.format("delta")
    .load("/lakehouse/bronze/orders")
    .dropDuplicates(["order_id"])
silver.write.format("delta").save("/lakehouse/silver/orders")

# Gold: agregace
gold = spark.read.format("delta")
    .load("/lakehouse/silver/orders")
    .groupBy("order_date").agg(sum("total_czk").alias("revenue"))
gold.write.format("delta").save("/lakehouse/gold/revenue")

Výhody

  • Jeden storage — žádná duplikace
  • Open formats — žádný vendor lock-in
  • Cost efficiency — levný object storage

Shrnutí

Lakehouse s medalionovým vzorem je preferovaný přístup. Bronze-Silver-Gold zajišťuje postupné zvyšování kvality.

lakehousearchitekturadata lakewarehouse