DevOps Fortgeschritten
SLO/SLI-Definitionen¶
SLOSLISRE 3 min Lesezeit
Service Level Indicators und Objectives. Zuverlässigkeit messen.
SLI und SLO¶
Service: API
SLO: 99.9% Availability (monatlich)
SLI: successful_requests / total_requests
Error Budget: 0.1% = ~43 Min Downtime/Monat
Richtige SLIs und SLOs definieren¶
Gehen Sie bei der Definition von SLIs von der Benutzererfahrung aus, nicht von internen Metriken. Ein guter SLI fuer eine API ist das Verhaeltnis erfolgreicher Antworten (Status < 500) mit Latenz unter 300ms zur Gesamtzahl der Requests. Das SLO sollte ambitioniert genug sein, um Qualitaet sicherzustellen, aber nicht so streng, dass es die Entwicklung blockiert.
Typische SLOs fuer verschiedene Dienste: Web-API 99,9% (43 Min. Downtime/Monat), internes Batch-Processing 99,5% (3,6 h/Monat), kritische Finanzdienste 99,99% (4,3 Min./Monat). Das SLA (Service Level Agreement) ist eine vertragliche Verpflichtung gegenueber dem Kunden, die immer weniger streng als das interne SLO sein sollte — bei einem SLO von 99,9% sollte das SLA 99,5% betragen. Ueberwachen Sie SLIs in Echtzeit mit Prometheus + Grafana und richten Sie Alerting auf die Burn Rate ein — wie schnell Sie Ihr Error Budget verbrauchen.
Zusammenfassung¶
SLO = Zielzuverlässigkeit. SLI = Messung. Error Budget = Spielraum für Innovation.
Brauchen Sie Hilfe bei der Implementierung?¶
Unser Team hat Erfahrung mit dem Entwurf und der Implementierung moderner Architekturen. Wir helfen Ihnen gerne.