Hadoop a Big Data v enterprise prostredi

Termin Big Data je v roce 2012 vsude — na konferencich, v mediich, v nabidkach vendoru. Ale co to prakticky znamena pro ceskou firmu, ktera zpracovava desitky az stovky gigabytu dat denne? Apache Hadoop muze byt odpoved.

Co je Big Data a kdy ho skutecne potrebujete¶

Gartner definuje Big Data pomoci tri V: Volume (objem), Velocity (rychlost) a Variety (rozmanitost). Pokud vase data splnuji alespon dve z techto kriterii a stavajici relacni databaze nestaci, je cas se podivat na alternativy.

Typicke scenare, kde se Hadoop vyplati:

Analyza logu — webove servery, aplikacni servery, sitove prvky generuji gigabajty logu denne. SQL dotazy nad takovou tabulkou trvaji hodiny.
ETL pro datovy sklad — transformace a cisteni dat pred nahranim do Oracle nebo SQL Server data warehouse
Analyza zakaznickeho chovani — clickstream data z e-shopu, telekomunikacni CDR zaznamy
Archivace a vyhledavani — stare dokumenty, emaily, scany — nestrukturovana data, kde fulltext nestaci

Pokud zpracovavate mene nez 10 GB dat a vase dotazy bezi v rozumnem case, Hadoop pravdepodobne nepotrebujete. Relacni databaze s dobrymi indexy a materializovanymi pohledy jsou pro mensi objemy efektivnejsi.

Architektura Hadoop clusteru¶

Hadoop se sklada ze dvou klicovych komponent:

HDFS (Hadoop Distributed File System) — distribuovany souborovy system, ktery data replikuje na vice nodu (vychozi replikacni faktor je 3). Data jsou rozdelena na bloky o velikosti 64 MB (v Hadoop 2.x typicky 128 MB) a distribuovana napric clusterem.

MapReduce — vypocetni framework, ktery zpracovava data paralelne na vsech nodech, kde data lezi. Misto presunu dat k vypoctu se vypocet presouva k datum — to je klicovy princip.

Minimalni produkci cluster pro enterprise pouziti:

NameNode — 1 server, 64 GB RAM, RAID 1, ridici uzel HDFS
Secondary NameNode — 1 server, backup metadat
DataNode / TaskTracker — minimalne 4 servery, kazdy 32 GB RAM, 4-12 disku bez RAID (HDFS replikuje sam), 8+ jader CPU
Edge node — 1 server pro klientsky pristup, Hive, Pig, import/export dat

Distribuce: Cloudera vs Apache vs Hortonworks¶

Ciste Apache Hadoop je mozne provozovat, ale pro enterprise nasazeni doporucujeme jednu z komercnich distribuci:

Cloudera CDH 4 — nejrozsirenejsi enterprise distribuce. Obsahuje Hadoop, Hive, HBase, Pig, Oozie a Cloudera Manager pro spravu clusteru. Komercni podpora a certifikace. Pro vetsinu nasich klientu doporucujeme tuto variantu.

Hortonworks HDP 1.x — plne open-source distribuce. Bez vlastniho management nastroje (pouziva Apache Ambari). Vhodna pro firmy s vlastnim Hadoop know-how.

MapR — nahrazuje HDFS vlastnim vysokovykonnym souborovym systemem. Zajimava volba pro nizkou latenci, ale vendor lock-in.

Hive: SQL nad Hadoop¶

Pro analyticke dotazy nad daty v HDFS je Apache Hive idealni volbou. Hive umoznuje pisat dotazy v jazyce podobnem SQL (HiveQL), ktere se internene prevedou na MapReduce joby.

– Priklad: analyza pristupu k webu za posledni mesic

CREATE EXTERNAL TABLE access_log (

ip STRING,

request_time STRING,

method STRING,

url STRING,

status INT,

bytes BIGINT

) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’

LOCATION ‘/data/logs/access/’;

SELECT url, COUNT(*) as hits, SUM(bytes) as total_bytes

FROM access_log

WHERE status = 200

GROUP BY url

ORDER BY hits DESC

LIMIT 100;

Tento dotaz zpracuje terabajty logu paralelne na celem clusteru. Na relacni databazi by trvat hodiny — na Hadoop clusteru s 8 nody minuty.

Integrace s existujicim ekosystemem¶

Hadoop neni nahrada za Oracle nebo SQL Server. Je to doplnek. Typicky workflow:

Sqoop — import dat z relacni databaze do HDFS
MapReduce / Hive — transformace a agregace
Sqoop export — vysledky zpet do relacni databaze pro BI nastroje

Pro real-time sber dat (logy, udalosti) pouzivame Apache Flume, ktery data streamuje primo do HDFS. Pro messaging mezi systemy je vhodny Apache Kafka (relativne novy projekt od LinkedIn, ale uz stabilni).

Provozni aspekty¶

Hadoop cluster vyzaduje jiny pristup k provozu nez klasicky aplikacni server:

Monitoring — Ganglia nebo Nagios s Hadoop pluginy. Sledujte HDFS kapacitu, pocet zivy DataNodes, MapReduce queue a failed joby.
Zalohovani — HDFS ma built-in replikaci, ale NameNode metadata jsou single point of failure. Zalohujte fsimage a edits log.
Kapacitni planovani — data v HDFS rostou. Plan na 30-50 procent volneho mista. Pridavani DataNodes je snadne — Hadoop automaticky rebalancuje data.
Bezpecnost — Hadoop ve vychozim nastaveni nema autentizaci. Pro enterprise nasazeni zapnete Kerberos integraci.

Naklady a ROI¶

Hadoop bezi na commodity hardware — to je jeho hlavni ekonomicka vyhoda. Cluster s 8 DataNodes na standardnich 2U serverech stoji radove 1-2 miliony CZK vcetne disku. Srovnatelny vykon na komercni MPP databazi (Teradata, Netezza) stoji nasobne vice.

ROI se typicky projevi v techto oblastech:

Rychlejsi ETL procesy — z hodin na minuty
Analyzy, ktere predtim nebyly mozne (fulltext pres miliony dokumentu)
Dlouhodoba archivace dat za zlomek ceny SAN uloziste
Offload zateze z produkci databaze

Shrnuti¶

Hadoop neni silver bullet, ale pro spravne use cases prinasi dramaticke zlepseni. Zacnete s jednim konkretnim problemem — analyza logu nebo ETL offload — a rust clusteru podridte realnym potrebam. Cloudera CDH 4 je solidni volba pro ceske enterprise prostredi s dostupnou podporou. Klicove je mit v tymu alespon jednoho cloveka, ktery Hadoop rozumi — at uz interniho nebo externiho.

big datahadoopmapreducejava

Hadoop a Big Data v enterprise prostredi

Co je Big Data a kdy ho skutecne potrebujete¶

Architektura Hadoop clusteru¶

Distribuce: Cloudera vs Apache vs Hortonworks¶

Hive: SQL nad Hadoop¶

Integrace s existujicim ekosystemem¶

Provozni aspekty¶

Naklady a ROI¶

Shrnuti¶

Související články

Big Data a Hadoop v enterprise

Hadoop ekosystém — HDFS, YARN a moderní alternativy

Tomcat a connection pooling — jak predejit problemum