Služby

AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital

Odvětví

Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty

Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra

Pojďme to probrat

Incident response checklist

01. 01. 2024 1 min čtení advanced

Když se stane incident, potřebujete postup, ne paniku.

Detekce¶

☐ Alert přijat a potvrzen
☐ Severity posouzena
☐ Incident commander určen
☐ Komunikační kanál otevřen (#incident-YYYYMMDD)

Assessment¶

☐ Rozsah dopadu (kolik uživatelů?)
☐ Jaké služby jsou zasaženy?
☐ Od kdy problém existuje?
☐ Existuje známý workaround?

Mitigace¶

☐ Rollback pokud nedávný deploy
☐ Traffic shift (failover region)
☐ Restart služby
☐ Scaling up
☐ Komunikace uživatelům (status page)

Komunikace¶

☐ Interní update každých 30 minut
☐ Status page aktualizována
☐ Management informován (P1/P2)
☐ Customer support briefován

Resolution¶

☐ Root cause identifikována
☐ Fix aplikován
☐ Monitoring potvrzuje stabilitu
☐ Status page: resolved

After action¶

☐ Postmortem do 48 hodin
☐ Action items s vlastníky
☐ Follow-up meeting naplánován
☐ Metriky: MTTD, MTTR

Klíč¶

Klid, komunikace, postup. Trénujte incident response pravidelně — game days.

incidentsredevops

Další know-how

SRE maturity — od firefighting k proaktivnímu inženýrství

Site Reliability Engineering praktiky. SLO/SLI/Error budget, blameless postmortemy a toil reduction.

On-call survival guide

Praktický průvodce on-call — příprava, eskalace, runbooky, postmortem.

Docker — kontejnerizace meni pravidla hry

Docker prinasi revoluci v nasazovani aplikaci. Lehke kontejnery, portabilita a reprodukovatelnost prostredi. Prvni...