Hadoop ekosystém — HDFS, YARN a moderní alternativy

01. 01. 2024 1 min čtení intermediate

Hadoop odstartoval éru big data. MapReduce nahradil Spark, HDFS nahrazují cloudové storage, ale principy přetrvávají.

Hadoop — od revoluce k evoluci¶

HDFS¶

Block storage — bloky 128 MB
Replikace — 3 kopie
Data locality — compute u dat

Od Hadoop ke cloudu¶

HDFS → S3/GCS — elastický storage
MapReduce → Spark — 100× rychlejší
YARN → Kubernetes
Hive → Trino — interaktivní SQL

CREATE EXTERNAL TABLE orders (
    order_id STRING,
    total_czk DECIMAL(12,2)
) STORED AS PARQUET
LOCATION 'hdfs:///data/orders/';

SELECT YEAR(order_date) AS rok,
       SUM(total_czk) AS trzby
FROM orders GROUP BY YEAR(order_date);

Shrnutí¶

Hadoop položil základy big data. Moderní architektura nahrazuje jeho komponenty cloudovými službami.

hadoophdfsyarnbig data

Další know-how

Big Data a Hadoop v enterprise

Praktické zkušenosti s nasazením Apache Hadoop v enterprise prostředí. MapReduce, HDFS, Hive a proč Big Data není...

Hadoop a Big Data v enterprise prostredi

Apache Hadoop meni zpusob, jakym firmy zpracovavaji velke objemy dat. Prvni kroky s HDFS, MapReduce a Hive v ceskem...

Apache Cassandra — distribuovaná databáze pro velká data

Praktické zkušenosti s Apache Cassandra v produkci. Data modeling, replikace, tunable consistency a kdy zvolit...