Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

Chaos Engineering — testování odolnosti v produkci

28. 11. 2022 1 min čtení CORE SYSTEMSdevelopment

„Systém vypadá stabilní.” — dokud nezačnete cíleně rozbíjet věci. Chaos engineering je disciplína testování, jak systém reaguje na selhání.

Proč chaos?

Produkční systémy selžou. Otázka není „jestli”, ale „kdy” a „jak to zvládneme”. Chaos engineering simuluje selhání kontrolovaně — než se stane nekontrolovaně.

Litmus Chaos na Kubernetes

Litmus (CNCF) pro chaos experimenty: pod kill, node drain, network latency injection, disk fill. Experimenty jako YAML manifesty, verzované v Gitu, spouštěné automaticky v CI.

GameDays

Kvartální „GameDay”: celý tým sleduje, jak systém reaguje na simulované selhání. Scénáře: výpadek databáze, DDoS, corrupted data, cloud region outage. Zjištění dokumentujeme a opravujeme slabá místa.

Výsledky

Po 4 GameDays jsme našli 12 kritických slabin, které by způsobily výpadek. MTTR se snížil o 35 % — tým ví, jak reagovat, protože si to nacvičil.

Rozbíjejte věci — záměrně

Chaos engineering buduje confidence. Lépe najít slabinu na GameDay než v pátek v noci v produkci.

chaos engineeringreliabilitykuberneteslitmustesting