DevOps Fortgeschritten
Error Budget¶
Error BudgetSREReliability 3 Min. Lesezeit
Das Error-Budget-Konzept im SRE. Balance zwischen Zuverlässigkeit und Geschwindigkeit.
Prinzip¶
SLO 99,9% = Error Budget 0,1% = 43 Min./Monat. Budget vorhanden? Deployen. Aufgebraucht? Verlangsamen.
- Budget > 50% - frei deployen
- Budget 20-50% - Canary Releases
- Budget < 20% - nur kritische Fixes
- Budget = 0 - Code Freeze
Error Budgets implementieren¶
Das Error Budget wird aus dem definierten SLO berechnet. Bei einem SLO von 99,9% Availability pro Monat (30 Tage) betraegt das Error Budget 0,1% der Gesamtzeit — etwa 43 Minuten Ausfallzeit. Dieses Budget wird kontinuierlich ueberwacht und dient als objektive Metrik fuer Entscheidungen ueber das Tempo von Aenderungen.
Der Schluessel ist die Verknuepfung des Error Budgets mit konkreten Aktionen: Ueber 50% verbleibendem Budget deployt das Team frei, zwischen 20-50% wechselt es zu Canary Releases, unter 20% werden nur kritische Fixes deployt, und bei verbrauchtem Budget tritt ein Code Freeze ein. Dieses Framework beseitigt subjektive Debatten zwischen Entwicklung (will schnell deployen) und Betrieb (will Stabilitaet) und ersetzt sie durch Daten. Error-Budget-Reporting sollte automatisiert und fuer das gesamte Team sichtbar sein — ein Grafana-Dashboard mit dem aktuellen Budget-Status ist das Minimum.
Zusammenfassung¶
Error Budget quantifiziert die Risikobereitschaft der Organisation.
Brauchen Sie Hilfe bei der Implementierung?¶
Unser Team hat Erfahrung mit dem Entwurf und der Implementierung moderner Architekturen. Wir helfen Ihnen gerne.