Lakehouse sjednocuje data lake a warehouse do jedné vrstvy. Open table formats, medalionová architektura a unifikovaný přístup k datům.
Od warehouse a lake k lakehouse¶
Medalionová architektura¶
- Bronze — surová data, append-only
- Silver — vyčištěná, validovaná
- Gold — business agregace
# Bronze: ingestion z Kafka
bronze.writeStream.format("delta")
.start("/lakehouse/bronze/orders")
# Silver: čištění
silver = spark.read.format("delta")
.load("/lakehouse/bronze/orders")
.dropDuplicates(["order_id"])
silver.write.format("delta").save("/lakehouse/silver/orders")
# Gold: agregace
gold = spark.read.format("delta")
.load("/lakehouse/silver/orders")
.groupBy("order_date").agg(sum("total_czk").alias("revenue"))
gold.write.format("delta").save("/lakehouse/gold/revenue")
Výhody¶
- Jeden storage — žádná duplikace
- Open formats — žádný vendor lock-in
- Cost efficiency — levný object storage
Shrnutí¶
Lakehouse s medalionovým vzorem je preferovaný přístup. Bronze-Silver-Gold zajišťuje postupné zvyšování kvality.
lakehousearchitekturadata lakewarehouse