Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

SRE v praxi — jak jsme začali měřit spolehlivost

12. 09. 2018 1 min čtení CORE SYSTEMSai

Přečetli jsme Google SRE knihu a řekli si: tohle chceme. Ne celé naráz — nejsme Google. Ale principy SLO, error budgets a blameless postmortems jsou aplikovatelné i pro náš tým.

SLI, SLO, SLA

SLI — měřitelná metrika spolehlivosti. SLO — cíl pro SLI (99.9 % = max 43 min výpadku/měsíc). SLA — smluvní závazek, vždy slabší než SLO.

Error budgets — licence na riziko

Error budget je inverzní k SLO. Dokud máte budget, můžete riskovat — deployovat, experimentovat. Když dočerpáte, zastavíte deploymenty a opravujete. Objektivní metrika místo „nechceme deploy”.

Blameless postmortems

Každý incident s dopadem na SLO dostane postmortem. Nehledáme viníka, hledáme systémové příčiny: timeline, impact, root cause, what went well/wrong, action items. Sdílíme v rámci firmy.

On-call rotace

Formální on-call rotace. Jeden inženýr týdně, PagerDuty pro alerting, runbooky pro známé problémy. Kompenzace za pohotovost — protože vyhoření není SRE.

SRE je kulturní změna, ne jen tooling

SRE je o tom, jak přemýšlíme o spolehlivosti, jak balancujeme rychlost a stabilitu, jak se učíme z chyb. To zvládne i tým o deseti lidech.

sresloslierror budgetreliability