DR plan je dokument, o kterem vsichni mluvi, ale malokdo ho ma aktualni a otestovany. Po zkusenosti s vypadkem datacentra jsme se rozhodli vzit DR vazne.
RPO a RTO¶
Prioritni systemy: RPO pod 1 min, RTO pod 30 min. Sekundarni: RPO pod 24h, RTO pod 8h. Interni: RPO/RTO pod 24h.
Scenare¶
Selhani disku (RAID), serveru (VMware HA), SAN (redundantni paths), datacentra (DR site), regionu (geo-distributed).
Failover procedury¶
Krok-za-krokem. Kdo je zodpovedny, kontakty, ocekavany cas. Psano pro junior admina v nedeli v noci.
Testovani¶
Mesicne: tabletop exercise. Kvartalne: partial test. Rocne: full DR test. Dokumentovano s lessons learned.
Udrzovani¶
Living document v Confluence. Review po kazdem incidentu a infra zmene. Tistena kopie v serverovne, USB v trezoru.
Zaverem¶
DR plan je pojistka. Rozdil mezi 30minutovym vypadkem a celodenni katastrofou. Investujte do tvorby, testovani a udrzovani. Netestovany plan neni plan.