Incident management s PagerDuty — od chaosu k procesu

Neděle, 3:00 ráno. Produkce padla. Kdo to ví? Kdo to řeší? Dříve: chaotické telefonáty. Teď: PagerDuty automaticky eskaluje, runbooky navigují řešení, postmortem zajistí, že se to neopakuje.

Předtím: chaos¶

Monitoring posílal emaily. Kdo je přečetl? Nikdo v noci. Klient zavolal support. Support zavolal manažerovi. Manažer hledal, kdo umí systém. Čas do reakce: hodiny.

PagerDuty setup¶

On-call rotace: 2 týmy, týdenní rotace. Primární on-call + sekundární eskalace. Alert z Promethea → PagerDuty → telefon/SMS/push notifikace. Acknowledgement timeout: 5 minut. Eskalace po 10 minutách.

Incident severity¶

SEV1: produkční výpadek, zákazníci ovlivněni → okamžitá reakce
SEV2: degradace výkonu, částečný výpadek → 30 min response
SEV3: non-critical issue → next business day

Runbooky¶

Každý alert má link na runbook. Runbook obsahuje: co alert znamená, jak diagnostikovat, jak mitigovat, kdy eskalovat. On-call inženýr nemusí být expert na každý systém — runbook ho naviguje.

Post-incident¶

Každý SEV1 a SEV2 incident dostane postmortem do 48 hodin. Blameless. Action items s owners a deadlines. Review na týdenním SRE meetingu. Trend tracking — opakující se incidenty indikují systémový problém.

Incident management je investice do klidného spánku¶

PagerDuty, runbooky a postmortems transformovaly naši incident response z chaosu na proces. On-call inženýr ví přesně co dělat.

pagerdutyincident managementsreon-call

Incident management s PagerDuty — od chaosu k procesu

Předtím: chaos¶

PagerDuty setup¶

Incident severity¶

Runbooky¶

Post-incident¶

Incident management je investice do klidného spánku¶

Související články

AI v incident managementu — automatická detekce a response

On-call survival guide

SRE v praxi — jak jsme začali měřit spolehlivost