Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

Hadoop a Big Data v enterprise prostredi

18. 09. 2012 4 min čtení CORE SYSTEMSdata

Termin Big Data je v roce 2012 vsude — na konferencich, v mediich, v nabidkach vendoru. Ale co to prakticky znamena pro ceskou firmu, ktera zpracovava desitky az stovky gigabytu dat denne? Apache Hadoop muze byt odpoved.

Co je Big Data a kdy ho skutecne potrebujete

Gartner definuje Big Data pomoci tri V: Volume (objem), Velocity (rychlost) a Variety (rozmanitost). Pokud vase data splnuji alespon dve z techto kriterii a stavajici relacni databaze nestaci, je cas se podivat na alternativy.

Typicke scenare, kde se Hadoop vyplati:

  • Analyza logu — webove servery, aplikacni servery, sitove prvky generuji gigabajty logu denne. SQL dotazy nad takovou tabulkou trvaji hodiny.
  • ETL pro datovy sklad — transformace a cisteni dat pred nahranim do Oracle nebo SQL Server data warehouse
  • Analyza zakaznickeho chovani — clickstream data z e-shopu, telekomunikacni CDR zaznamy
  • Archivace a vyhledavani — stare dokumenty, emaily, scany — nestrukturovana data, kde fulltext nestaci

Pokud zpracovavate mene nez 10 GB dat a vase dotazy bezi v rozumnem case, Hadoop pravdepodobne nepotrebujete. Relacni databaze s dobrymi indexy a materializovanymi pohledy jsou pro mensi objemy efektivnejsi.

Architektura Hadoop clusteru

Hadoop se sklada ze dvou klicovych komponent:

HDFS (Hadoop Distributed File System) — distribuovany souborovy system, ktery data replikuje na vice nodu (vychozi replikacni faktor je 3). Data jsou rozdelena na bloky o velikosti 64 MB (v Hadoop 2.x typicky 128 MB) a distribuovana napric clusterem.

MapReduce — vypocetni framework, ktery zpracovava data paralelne na vsech nodech, kde data lezi. Misto presunu dat k vypoctu se vypocet presouva k datum — to je klicovy princip.

Minimalni produkci cluster pro enterprise pouziti:

  • NameNode — 1 server, 64 GB RAM, RAID 1, ridici uzel HDFS
  • Secondary NameNode — 1 server, backup metadat
  • DataNode / TaskTracker — minimalne 4 servery, kazdy 32 GB RAM, 4-12 disku bez RAID (HDFS replikuje sam), 8+ jader CPU
  • Edge node — 1 server pro klientsky pristup, Hive, Pig, import/export dat

Distribuce: Cloudera vs Apache vs Hortonworks

Ciste Apache Hadoop je mozne provozovat, ale pro enterprise nasazeni doporucujeme jednu z komercnich distribuci:

Cloudera CDH 4 — nejrozsirenejsi enterprise distribuce. Obsahuje Hadoop, Hive, HBase, Pig, Oozie a Cloudera Manager pro spravu clusteru. Komercni podpora a certifikace. Pro vetsinu nasich klientu doporucujeme tuto variantu.

Hortonworks HDP 1.x — plne open-source distribuce. Bez vlastniho management nastroje (pouziva Apache Ambari). Vhodna pro firmy s vlastnim Hadoop know-how.

MapR — nahrazuje HDFS vlastnim vysokovykonnym souborovym systemem. Zajimava volba pro nizkou latenci, ale vendor lock-in.

Hive: SQL nad Hadoop

Pro analyticke dotazy nad daty v HDFS je Apache Hive idealni volbou. Hive umoznuje pisat dotazy v jazyce podobnem SQL (HiveQL), ktere se internene prevedou na MapReduce joby.

– Priklad: analyza pristupu k webu za posledni mesic

CREATE EXTERNAL TABLE access_log (

ip STRING,

request_time STRING,

method STRING,

url STRING,

status INT,

bytes BIGINT

) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’

LOCATION ‘/data/logs/access/’;

SELECT url, COUNT(*) as hits, SUM(bytes) as total_bytes

FROM access_log

WHERE status = 200

GROUP BY url

ORDER BY hits DESC

LIMIT 100;

Tento dotaz zpracuje terabajty logu paralelne na celem clusteru. Na relacni databazi by trvat hodiny — na Hadoop clusteru s 8 nody minuty.

Integrace s existujicim ekosystemem

Hadoop neni nahrada za Oracle nebo SQL Server. Je to doplnek. Typicky workflow:

  1. Sqoop — import dat z relacni databaze do HDFS
  2. MapReduce / Hive — transformace a agregace
  3. Sqoop export — vysledky zpet do relacni databaze pro BI nastroje

Pro real-time sber dat (logy, udalosti) pouzivame Apache Flume, ktery data streamuje primo do HDFS. Pro messaging mezi systemy je vhodny Apache Kafka (relativne novy projekt od LinkedIn, ale uz stabilni).

Provozni aspekty

Hadoop cluster vyzaduje jiny pristup k provozu nez klasicky aplikacni server:

  • Monitoring — Ganglia nebo Nagios s Hadoop pluginy. Sledujte HDFS kapacitu, pocet zivy DataNodes, MapReduce queue a failed joby.
  • Zalohovani — HDFS ma built-in replikaci, ale NameNode metadata jsou single point of failure. Zalohujte fsimage a edits log.
  • Kapacitni planovani — data v HDFS rostou. Plan na 30-50 procent volneho mista. Pridavani DataNodes je snadne — Hadoop automaticky rebalancuje data.
  • Bezpecnost — Hadoop ve vychozim nastaveni nema autentizaci. Pro enterprise nasazeni zapnete Kerberos integraci.

Naklady a ROI

Hadoop bezi na commodity hardware — to je jeho hlavni ekonomicka vyhoda. Cluster s 8 DataNodes na standardnich 2U serverech stoji radove 1-2 miliony CZK vcetne disku. Srovnatelny vykon na komercni MPP databazi (Teradata, Netezza) stoji nasobne vice.

ROI se typicky projevi v techto oblastech:

  • Rychlejsi ETL procesy — z hodin na minuty
  • Analyzy, ktere predtim nebyly mozne (fulltext pres miliony dokumentu)
  • Dlouhodoba archivace dat za zlomek ceny SAN uloziste
  • Offload zateze z produkci databaze

Shrnuti

Hadoop neni silver bullet, ale pro spravne use cases prinasi dramaticke zlepseni. Zacnete s jednim konkretnim problemem — analyza logu nebo ETL offload — a rust clusteru podridte realnym potrebam. Cloudera CDH 4 je solidni volba pro ceske enterprise prostredi s dostupnou podporou. Klicove je mit v tymu alespon jednoho cloveka, ktery Hadoop rozumi — at uz interniho nebo externiho.

big datahadoopmapreducejava