Neděle, 3:00 ráno. Produkce padla. Kdo to ví? Kdo to řeší? Dříve: chaotické telefonáty. Teď: PagerDuty automaticky eskaluje, runbooky navigují řešení, postmortem zajistí, že se to neopakuje.
Předtím: chaos¶
Monitoring posílal emaily. Kdo je přečetl? Nikdo v noci. Klient zavolal support. Support zavolal manažerovi. Manažer hledal, kdo umí systém. Čas do reakce: hodiny.
PagerDuty setup¶
On-call rotace: 2 týmy, týdenní rotace. Primární on-call + sekundární eskalace. Alert z Promethea → PagerDuty → telefon/SMS/push notifikace. Acknowledgement timeout: 5 minut. Eskalace po 10 minutách.
Incident severity¶
- SEV1: produkční výpadek, zákazníci ovlivněni → okamžitá reakce
- SEV2: degradace výkonu, částečný výpadek → 30 min response
- SEV3: non-critical issue → next business day
Runbooky¶
Každý alert má link na runbook. Runbook obsahuje: co alert znamená, jak diagnostikovat, jak mitigovat, kdy eskalovat. On-call inženýr nemusí být expert na každý systém — runbook ho naviguje.
Post-incident¶
Každý SEV1 a SEV2 incident dostane postmortem do 48 hodin. Blameless. Action items s owners a deadlines. Review na týdenním SRE meetingu. Trend tracking — opakující se incidenty indikují systémový problém.
Incident management je investice do klidného spánku¶
PagerDuty, runbooky a postmortems transformovaly naši incident response z chaosu na proces. On-call inženýr ví přesně co dělat.