Chaos Engineering — testování odolnosti v produkci

„Systém vypadá stabilní.” — dokud nezačnete cíleně rozbíjet věci. Chaos engineering je disciplína testování, jak systém reaguje na selhání.

Proč chaos?¶

Produkční systémy selžou. Otázka není „jestli”, ale „kdy” a „jak to zvládneme”. Chaos engineering simuluje selhání kontrolovaně — než se stane nekontrolovaně.

Litmus Chaos na Kubernetes¶

Litmus (CNCF) pro chaos experimenty: pod kill, node drain, network latency injection, disk fill. Experimenty jako YAML manifesty, verzované v Gitu, spouštěné automaticky v CI.

GameDays¶

Kvartální „GameDay”: celý tým sleduje, jak systém reaguje na simulované selhání. Scénáře: výpadek databáze, DDoS, corrupted data, cloud region outage. Zjištění dokumentujeme a opravujeme slabá místa.

Výsledky¶

Po 4 GameDays jsme našli 12 kritických slabin, které by způsobily výpadek. MTTR se snížil o 35 % — tým ví, jak reagovat, protože si to nacvičil.

Rozbíjejte věci — záměrně¶

Chaos engineering buduje confidence. Lépe najít slabinu na GameDay než v pátek v noci v produkci.

chaos engineeringreliabilitykuberneteslitmustesting

Chaos Engineering — testování odolnosti v produkci

Proč chaos?¶

Litmus Chaos na Kubernetes¶

GameDays¶

Výsledky¶

Rozbíjejte věci — záměrně¶

Související články

Chaos Engineering v praxi — od teorie k implementaci

Kubernetes RBAC — řízení přístupu v multi-tenant clusteru

ArgoCD — GitOps done right