Dva roky jsme resili incidenty jak nam prislo pod ruku. Zadna evidence, zadne metriky. Dokud klient nepozadoval SLA report — ktery neexistoval.
Klasifikace¶
P1 Critical: reakce 15 min, reseni 4h. P2 High: 30 min/8h. P3 Medium: 2h/3 dny. P4 Low: 1 den/2 tydny.
JIRA workflow + Nagios integrace¶
Custom issue type Incident s workflow a SLA pluginem. CRITICAL alert z Nagiosu automaticky vytvori JIRA incident pres REST API.
Postmortem¶
Kazdy P1/P2: Co se stalo? Proc? Co udelame? Hledame systemove priciny, ne viniky. Do 48 hodin.
Vysledky¶
SLA compliance: 94 procent. MTTR P1: z 6 hodin na 2.5. Opakujici se incidenty: -30 procent.