Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

Delta Lake — ACID transakce pro data lake

01. 01. 2024 1 min čtení intermediate

Delta Lake je open-source storage layer pro spolehlivý data lake. ACID transakce, schema enforcement a time travel nad Parquet.

Proč Delta Lake

Řeší nekonzistentní čtení a chybějící schema enforcement transakčním logem.

Klíčové funkce

  • ACID transakce
  • Schema enforcement/evolution
  • Time travel
  • MERGE (upsert)
from delta import DeltaTable

df.write.format("delta").save("/data/orders")

# Time travel
spark.read.format("delta").option("versionAsOf", 5).load("/data/orders")

# MERGE
dt = DeltaTable.forPath(spark, "/data/orders")
dt.alias("t").merge(new.alias("s"), "t.order_id = s.order_id")\
    .whenMatchedUpdateAll().whenNotMatchedInsertAll().execute()
OPTIMIZE delta.`/data/orders` ZORDER BY (customer_id)
VACUUM delta.`/data/orders` RETAIN 168 HOURS

Shrnutí

Delta Lake přidává spolehlivost warehouse do data lake. Základ lakehouse architektury.

delta lakeaciddata lakelakehouse