DevOps Fortgeschritten
SRE Golden Signals¶
SREMonitoringGolden Signals 3 Min. Lesezeit
Die vier Golden Signals: Latency, Traffic, Errors, Saturation.
Signale¶
- Latency – Antwortzeit (p50, p95, p99)
- Traffic – req/s
- Errors – Prozentsatz der 5xx-Fehler
- Saturation – CPU- und RAM-Auslastung
Prometheus¶
# Latency p99
histogram_quantile(0.99, rate(http_request_duration_seconds_bucket[5m]))
# Error rate
rate(http_requests_total{status=~"5.."}[5m]) / rate(http_requests_total[5m])
Golden Signals implementieren¶
Fuer effektives Monitoring implementieren Sie alle vier Signale fuer jeden kritischen Service. Messen Sie Latenz als Verteilung (Perzentile p50, p95, p99), nicht als Durchschnitt — Durchschnitte verbergen Probleme, die eine Minderheit der Benutzer betreffen. Ueberwachen Sie Traffic als Requests/s aufgeschluesselt nach Endpoint und HTTP-Methode.
Verfolgen Sie die Error Rate getrennt fuer Client-Fehler (4xx) und Server-Fehler (5xx). Nur 5xx zeigt ein Problem auf Ihrer Seite an. Messen Sie Saturation fuer CPU, Speicher, Disk I/O und Netzwerkkapazitaet — alertieren Sie bei 80% Auslastung, nicht bei 100%, da Sie Spielraum fuer Spikes benoetigen. Ein Dashboard mit diesen vier Panels fuer jeden Service ist das Erste, worauf Sie bei einem Incident schauen. Die USE-Methode (Utilization, Saturation, Errors) ergaenzt die Golden Signals fuer Infrastrukturkomponenten.
Zusammenfassung¶
Ein Dashboard mit 4 Golden-Signals-Panels bietet einen sofortigen Ueberblick ueber den Zustand des Systems.
Brauchen Sie Hilfe bei der Implementierung?¶
Unser Team hat Erfahrung mit dem Entwurf und der Implementierung moderner Architekturen. Wir helfen Ihnen gerne.