Přečetli jsme Google SRE knihu a řekli si: tohle chceme. Ne celé naráz — nejsme Google. Ale principy SLO, error budgets a blameless postmortems jsou aplikovatelné i pro náš tým.
SLI, SLO, SLA¶
SLI — měřitelná metrika spolehlivosti. SLO — cíl pro SLI (99.9 % = max 43 min výpadku/měsíc). SLA — smluvní závazek, vždy slabší než SLO.
Error budgets — licence na riziko¶
Error budget je inverzní k SLO. Dokud máte budget, můžete riskovat — deployovat, experimentovat. Když dočerpáte, zastavíte deploymenty a opravujete. Objektivní metrika místo „nechceme deploy”.
Blameless postmortems¶
Každý incident s dopadem na SLO dostane postmortem. Nehledáme viníka, hledáme systémové příčiny: timeline, impact, root cause, what went well/wrong, action items. Sdílíme v rámci firmy.
On-call rotace¶
Formální on-call rotace. Jeden inženýr týdně, PagerDuty pro alerting, runbooky pro známé problémy. Kompenzace za pohotovost — protože vyhoření není SRE.
SRE je kulturní změna, ne jen tooling¶
SRE je o tom, jak přemýšlíme o spolehlivosti, jak balancujeme rychlost a stabilitu, jak se učíme z chyb. To zvládne i tým o deseti lidech.