Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

Data lake — architektura pro ukládání surových dat

01. 01. 2024 1 min čtení intermediate

Data lake je centrální úložiště pro surová data v libovolném formátu. Od strukturovaných tabulek po nestrukturované logy — vše na levném object storage.

Co je data lake

Ukládá data v surové podobě — schema-on-read.

Architektura

  • Storage — S3, GCS, ADLS
  • Formáty — Parquet, Avro, JSON
  • Katalog — Glue, Hive Metastore
  • Compute — Spark, Trino, DuckDB
s3://data-lake/
├── raw/           # Bronze
│   ├── orders/
│   └── events/
├── processed/     # Silver
│   └── orders/
├── curated/       # Gold
│   └── daily_revenue/
└── _metadata/

Čemu se vyhnout (data swamp)

  • Chybějící katalog
  • Žádná governance
  • Malé soubory — tisíce 1KB souborů
  • Chybějící lineage

Shrnutí

Data lake s Table Formats a governance se stává lakehouse — spolehlivý základ pro analytiku.

data lakearchitekturaobject storagebig data