Incident Response
Wenn PagerDuty klingelt, haben Sie ein Runbook.
SIEM fuer Erkennung, Runbooks fuer Reaktion, On-Call-Prozesse fuer Eskalation, Post-Mortems fuer Lernen. Vorfaelle passieren — entscheidend ist, was Sie als naechstes tun.
Warum Sie Incident Response brauchen¶
Die Frage ist nicht OB ein Vorfall passiert, sondern WANN. Organisationen ohne IR-Prozess:
- Erkennen spaet — durchschnittliche Verweildauer (Angreifer im Netzwerk unerkannt) betraegt 204 Tage
- Reagieren chaotisch — wer macht was? Wer entscheidet? Wer kommuniziert?
- Wiederholen Fehler — derselbe Vorfall drei Monate spaeter, weil die Root Cause nie behoben wurde
- Eskalieren falsch — entweder zu spaet oder an die falschen Personen
SIEM & Erkennung¶
Datensammlung¶
Wir zentralisieren Sicherheitsereignisse aus der gesamten Infrastruktur:
- Infrastruktur — Firewalls, VPN, Load Balancer, DNS-Server
- Identitaet — Azure AD/Okta Login-Events, MFA-Fehler, privilegierter Zugriff
- Anwendung — WAF-Logs, API Gateway, Anwendungssicherheitsereignisse
- Endpunkt — EDR (CrowdStrike, Defender), Antivirus, Geraete-Compliance
- Cloud — Azure Activity Log, AWS CloudTrail, GCP Audit Log
Korrelationsregeln¶
Rohdaten ohne Korrelation sind Rauschen. Wir bauen Erkennungsregeln fuer:
- Brute Force — N fehlgeschlagene Logins von einer IP in M Minuten
- Lateral Movement — Ungewoehnliche Service-zu-Service-Kommunikation
- Privilege Escalation — Benutzer erhaelt Admin-Rolle, ungewoehnliche sudo-Nutzung
- Datenexfiltration — Grosse Datenuebertragung an unbekanntes Ziel
- Credential Abuse — Login von unmoegliciem Standort (GeoIP), Credential-Stuffing-Muster
Anomalie-Erkennung¶
ML-Modelle zur Erkennung unbekannter Bedrohungen:
- Baseline normalen Verhaltens pro Benutzer, pro Service
- Abweichungen bei Zugriffsmustern, Datenvolumen, API-Nutzung
- Alerting mit Kontext — nicht „Anomalie erkannt”, sondern „Benutzer X hat auf 500 Datensaetze in DB zugegriffen, Durchschnitt ist 20”
Runbooks¶
Runbook-Struktur¶
Jedes Runbook folgt einer einheitlichen Struktur:
- Erkennung — Wie manifestiert sich der Vorfall? Welcher Alert loest ihn aus?
- Triage — Ist es ein realer Vorfall oder ein False Positive? Welcher Schweregrad?
- Eindaemmung — Ausbreitung stoppen. Betroffenes System isolieren.
- Beseitigung — Ursache entfernen. Patch, Config-Aenderung, Widerruf.
- Wiederherstellung — Normalen Betrieb wiederherstellen. Verifizierung.
- Post-Incident — Timeline, Lessons Learned, Action Items.
Top 10 Runbooks¶
Wir schreiben Runbooks fuer die wahrscheinlichsten und schwerwiegendsten Szenarien:
- Kompromittierte Credentials — Gestohlenes Passwort/Token, unautorisierter Zugriff
- Ransomware — Verschluesselte Dateien, Loesegeldforderung
- DDoS — Service nicht verfuegbar, Traffic-Spike
- Datenverletzung — Unautorisierter Datenzugriff/-exfiltration
- Insider-Bedrohung — Boesartige oder fahrlaessige Mitarbeiteraktion
- Phishing — Erfolgreiches Phishing, kompromittierter Endpunkt
- Supply Chain — Kompromittierte Abhaengigkeit, boesartiges Update
- API-Missbrauch — Automatisiertes Scraping, Credential Stuffing
- Cloud-Fehlkonfiguration — Offener Storage, oeffentliche Datenbank
- Zertifikatsablauf — TLS-Zertifikat abgelaufen, Serviceunterbrechung
On-Call-Prozesse¶
Rotation und Eskalation¶
- Primaerer On-Call — Reagiert auf Alerts. Woechentliche Rotation.
- Sekundaerer On-Call — Backup wenn Primaerer nicht innerhalb von 5 Minuten reagiert.
- Incident Commander — Fuer SEV1/SEV2. Koordiniert Reaktion, kommuniziert mit Stakeholdern.
- Eskalationsmatrix — Klar definiert: wer, wann, wie. Kein „ich rufe an wen ich finde”.
Schweregrad-Framework¶
| Schweregrad | Beschreibung | Reaktionszeit | Kommunikation |
|---|---|---|---|
| SEV1 | Business down, Kunden betroffen | 15 Min | War Room, 15-Min-Updates, Exec-Benachrichtigung |
| SEV2 | Degradierte Leistung, teilweiser Ausfall | 30 Min | Slack-Kanal, stuendliche Updates |
| SEV3 | Kleineres Problem, Workaround existiert | 4h | Ticket, naechster Werktag |
| SEV4 | Kosmetisch, kein Impact | Backlog | Sprint-Planung |
Post-Mortem¶
Blameless-Kultur¶
Ein Post-Mortem sucht nach systemischen Ursachen, nicht nach Schuldigen. „John hat einen Fehler gemacht” ist keine Root Cause — „das System erlaubte John einen Fehler ohne Sicherheitsmechanismen zu machen” ist es.
Format¶
- Timeline — Was passiert ist, chronologisch, mit Zeitstempeln
- Impact — Wer betroffen war, wie lange, finanzieller Impact
- Root Cause — Warum es passiert ist (5 Whys)
- Beitragende Faktoren — Was die Situation verschlimmerte
- Was gut lief — Was funktionierte (Erkennung, Kommunikation, Wiederherstellung)
- Action Items — Spezifische Aufgaben mit Verantwortlichen und Deadlines
- Lessons Learned — Was wir fuer naechstes Mal mitnehmen
Post-Mortem-Datenbank¶
Alle Post-Mortems an einem Ort (Confluence, Notion, Git). Durchsuchbar, getaggt. Ein neues Teammitglied, das die letzten 10 Post-Mortems liest, weiss mehr ueber das System als aus jeder Dokumentation.
Table-Top-Uebungen¶
Vorfall-Simulationen ohne realen Impact:
- Vierteljaehrliche Uebungen fuer das IR-Team
- Szenario: „Es ist Freitag 17 Uhr, ein Kunde hat eine Datenverletzung gemeldet. Was tun Sie?”
- Kommunikation, Eskalation, Entscheidungsfindung ueben
- Luecken in Runbooks und Prozessen identifizieren
Technologie¶
Elastic SIEM, Microsoft Sentinel, Splunk, Grafana Loki, PagerDuty, OpsGenie, Slack (Incident Channels), Jira (Post-Mortem Tracking), Confluence (Runbook Repository), CrowdStrike, Microsoft Defender.
Häufig gestellte Fragen
Beginnen Sie mit drei Dingen: (1) Schweregrade definieren, (2) ein Runbook fuer Ihren haeufigsten Vorfall schreiben, (3) eine On-Call-Rotation einrichten. Den Rest iterativ aufbauen.
Abhaengig von Ihrer Groesse. Fuer kleinere Organisationen reicht Cloud-natives Logging (CloudWatch, Azure Monitor) mit Alarmierung. Fuer groessere empfehlen wir ein SIEM (Elastic SIEM, Sentinel, Splunk).