„Systém vypadá stabilní.” — dokud nezačnete cíleně rozbíjet věci. Chaos engineering je disciplína testování, jak systém reaguje na selhání.
Proč chaos?¶
Produkční systémy selžou. Otázka není „jestli”, ale „kdy” a „jak to zvládneme”. Chaos engineering simuluje selhání kontrolovaně — než se stane nekontrolovaně.
Litmus Chaos na Kubernetes¶
Litmus (CNCF) pro chaos experimenty: pod kill, node drain, network latency injection, disk fill. Experimenty jako YAML manifesty, verzované v Gitu, spouštěné automaticky v CI.
GameDays¶
Kvartální „GameDay”: celý tým sleduje, jak systém reaguje na simulované selhání. Scénáře: výpadek databáze, DDoS, corrupted data, cloud region outage. Zjištění dokumentujeme a opravujeme slabá místa.
Výsledky¶
Po 4 GameDays jsme našli 12 kritických slabin, které by způsobily výpadek. MTTR se snížil o 35 % — tým ví, jak reagovat, protože si to nacvičil.
Rozbíjejte věci — záměrně¶
Chaos engineering buduje confidence. Lépe najít slabinu na GameDay než v pátek v noci v produkci.