Disaster Recovery plan — jak ho napsat a otestovat

10. 12. 2013 1 min čtení CORE SYSTEMSai

DR plan je dokument, o kterem vsichni mluvi, ale malokdo ho ma aktualni a otestovany. Po zkusenosti s vypadkem datacentra jsme se rozhodli vzit DR vazne.

RPO a RTO¶

Prioritni systemy: RPO pod 1 min, RTO pod 30 min. Sekundarni: RPO pod 24h, RTO pod 8h. Interni: RPO/RTO pod 24h.

Scenare¶

Selhani disku (RAID), serveru (VMware HA), SAN (redundantni paths), datacentra (DR site), regionu (geo-distributed).

Failover procedury¶

Krok-za-krokem. Kdo je zodpovedny, kontakty, ocekavany cas. Psano pro junior admina v nedeli v noci.

Testovani¶

Mesicne: tabletop exercise. Kvartalne: partial test. Rocne: full DR test. Dokumentovano s lessons learned.

Udrzovani¶

Living document v Confluence. Review po kazdem incidentu a infra zmene. Tistena kopie v serverovne, USB v trezoru.

Zaverem¶

DR plan je pojistka. Rozdil mezi 30minutovym vypadkem a celodenni katastrofou. Investujte do tvorby, testovani a udrzovani. Netestovany plan neni plan.

drbusiness continuityprocesyoperations

Disaster Recovery plan — jak ho napsat a otestovat

RPO a RTO¶

Scenare¶

Failover procedury¶

Testovani¶

Udrzovani¶

Zaverem¶

Související články

Disaster recovery checklist

Zavadime Scrum — zkusenosti z ceske firmy

Z Nagiosu na Zabbix — proc jsme presli