Data lake je centrální úložiště pro surová data v libovolném formátu. Od strukturovaných tabulek po nestrukturované logy — vše na levném object storage.
Co je data lake¶
Ukládá data v surové podobě — schema-on-read.
Architektura¶
- Storage — S3, GCS, ADLS
- Formáty — Parquet, Avro, JSON
- Katalog — Glue, Hive Metastore
- Compute — Spark, Trino, DuckDB
s3://data-lake/
├── raw/ # Bronze
│ ├── orders/
│ └── events/
├── processed/ # Silver
│ └── orders/
├── curated/ # Gold
│ └── daily_revenue/
└── _metadata/
Čemu se vyhnout (data swamp)¶
- Chybějící katalog
- Žádná governance
- Malé soubory — tisíce 1KB souborů
- Chybějící lineage
Shrnutí¶
Data lake s Table Formats a governance se stává lakehouse — spolehlivý základ pro analytiku.
data lakearchitekturaobject storagebig data