Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

Incident response checklist

01. 01. 2024 1 min čtení advanced

Když se stane incident, potřebujete postup, ne paniku.

Detekce

  • ☐ Alert přijat a potvrzen
  • ☐ Severity posouzena
  • ☐ Incident commander určen
  • ☐ Komunikační kanál otevřen (#incident-YYYYMMDD)

Assessment

  • ☐ Rozsah dopadu (kolik uživatelů?)
  • ☐ Jaké služby jsou zasaženy?
  • ☐ Od kdy problém existuje?
  • ☐ Existuje známý workaround?

Mitigace

  • ☐ Rollback pokud nedávný deploy
  • ☐ Traffic shift (failover region)
  • ☐ Restart služby
  • ☐ Scaling up
  • ☐ Komunikace uživatelům (status page)

Komunikace

  • ☐ Interní update každých 30 minut
  • ☐ Status page aktualizována
  • ☐ Management informován (P1/P2)
  • ☐ Customer support briefován

Resolution

  • ☐ Root cause identifikována
  • ☐ Fix aplikován
  • ☐ Monitoring potvrzuje stabilitu
  • ☐ Status page: resolved

After action

  • ☐ Postmortem do 48 hodin
  • ☐ Action items s vlastníky
  • ☐ Follow-up meeting naplánován
  • ☐ Metriky: MTTD, MTTR

Klíč

Klid, komunikace, postup. Trénujte incident response pravidelně — game days.

incidentsredevops