Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

Incident management s PagerDuty — od chaosu k procesu

09. 10. 2019 1 min čtení CORE SYSTEMSai

Neděle, 3:00 ráno. Produkce padla. Kdo to ví? Kdo to řeší? Dříve: chaotické telefonáty. Teď: PagerDuty automaticky eskaluje, runbooky navigují řešení, postmortem zajistí, že se to neopakuje.

Předtím: chaos

Monitoring posílal emaily. Kdo je přečetl? Nikdo v noci. Klient zavolal support. Support zavolal manažerovi. Manažer hledal, kdo umí systém. Čas do reakce: hodiny.

PagerDuty setup

On-call rotace: 2 týmy, týdenní rotace. Primární on-call + sekundární eskalace. Alert z Promethea → PagerDuty → telefon/SMS/push notifikace. Acknowledgement timeout: 5 minut. Eskalace po 10 minutách.

Incident severity

  • SEV1: produkční výpadek, zákazníci ovlivněni → okamžitá reakce
  • SEV2: degradace výkonu, částečný výpadek → 30 min response
  • SEV3: non-critical issue → next business day

Runbooky

Každý alert má link na runbook. Runbook obsahuje: co alert znamená, jak diagnostikovat, jak mitigovat, kdy eskalovat. On-call inženýr nemusí být expert na každý systém — runbook ho naviguje.

Post-incident

Každý SEV1 a SEV2 incident dostane postmortem do 48 hodin. Blameless. Action items s owners a deadlines. Review na týdenním SRE meetingu. Trend tracking — opakující se incidenty indikují systémový problém.

Incident management je investice do klidného spánku

PagerDuty, runbooky a postmortems transformovaly naši incident response z chaosu na proces. On-call inženýr ví přesně co dělat.

pagerdutyincident managementsreon-call