SRE v praxi — jak jsme začali měřit spolehlivost

Přečetli jsme Google SRE knihu a řekli si: tohle chceme. Ne celé naráz — nejsme Google. Ale principy SLO, error budgets a blameless postmortems jsou aplikovatelné i pro náš tým.

SLI, SLO, SLA¶

SLI — měřitelná metrika spolehlivosti. SLO — cíl pro SLI (99.9 % = max 43 min výpadku/měsíc). SLA — smluvní závazek, vždy slabší než SLO.

Error budgets — licence na riziko¶

Error budget je inverzní k SLO. Dokud máte budget, můžete riskovat — deployovat, experimentovat. Když dočerpáte, zastavíte deploymenty a opravujete. Objektivní metrika místo „nechceme deploy”.

Blameless postmortems¶

Každý incident s dopadem na SLO dostane postmortem. Nehledáme viníka, hledáme systémové příčiny: timeline, impact, root cause, what went well/wrong, action items. Sdílíme v rámci firmy.

On-call rotace¶

Formální on-call rotace. Jeden inženýr týdně, PagerDuty pro alerting, runbooky pro známé problémy. Kompenzace za pohotovost — protože vyhoření není SRE.

SRE je kulturní změna, ne jen tooling¶

SRE je o tom, jak přemýšlíme o spolehlivosti, jak balancujeme rychlost a stabilitu, jak se učíme z chyb. To zvládne i tým o deseti lidech.

sresloslierror budgetreliability

SRE v praxi — jak jsme začali měřit spolehlivost

SLI, SLO, SLA¶

Error budgets — licence na riziko¶

Blameless postmortems¶

On-call rotace¶

SRE je kulturní změna, ne jen tooling¶

Související články

SRE maturity — od firefighting k proaktivnímu inženýrství

Incident management s PagerDuty — od chaosu k procesu

AI v incident managementu — automatická detekce a response