DevOps Fortgeschritten
On-Call Best Practices¶
On-CallSREAlerting 3 min Lesezeit
Effektiver On-Call-Dienst. Alerting, Runbooks, Nachhaltigkeit.
Prinzipien¶
- Klare Rotation
- Dokumentierte Runbooks
- Actionable Alerts
- Vergütung
Runbook¶
# Alert: HighErrorRate
## Schritte
1. kubectl get pods -n production
2. kubectl logs -l app=api --tail=100
3. Bad deploy? kubectl rollout undo deploy/api
Nachhaltigen On-Call einrichten¶
Gesunder On-Call erfordert maximal 1 Woche On-Call von 4 (25%). Wenn das Team zu klein ist, wird On-Call untragbar und fuehrt zu Burnout. Jeder Alert muss actionable sein — wenn ein Alert keine sofortige Aktion erfordert, senken Sie seine Severity oder entfernen Sie ihn. Das Ziel sind maximal 2 Alerts pro On-Call-Schicht.
Runbooks sind lebende Dokumente, die Schritt fuer Schritt beschreiben, wie ein bestimmter Alert diagnostiziert und behoben wird. Sie sollten enthalten: was der Alert bedeutet, welche Schritte zu unternehmen sind, wann eskaliert werden soll und Kontakte zu Experten. Automatisieren Sie so viel wie moeglich — wenn ein Runbook sich wiederholende Schritte enthaelt, erstellen Sie ein Skript oder eine Auto-Remediation. Verguetung fuer On-Call (Zuschlag oder Freizeitausgleich) ist fuer ein faires System unerlaesslich. Aktualisieren Sie nach jedem Incident das Runbook mit neuen Erkenntnissen.
Zusammenfassung¶
Actionable Alerts + Runbooks + faire Rotation = nachhaltiger On-Call-Dienst.
Brauchen Sie Hilfe bei der Implementierung?¶
Unser Team hat Erfahrung mit dem Entwurf und der Implementierung moderner Architekturen. Wir helfen Ihnen gerne.