Monitoring & Predictive Maintenance
Reparieren, bevor es kaputt geht. Nicht danach.
Condition Monitoring, ML-Ausfallvorhersage, IoT-Dashboards. Von reaktiver zu praediktiver Wartung.
Von reaktiver zu praediktiver Wartung¶
Die meisten Industrieunternehmen betreiben Wartung reaktiv oder zeitbasiert. Beides ist suboptimal:
Reaktive Wartung: Maschine faellt aus → wir reparieren. Ungeplanter Ausfall, Expressteile, Ueberstunden. Der teuerste Ansatz — ein ungeplanter Ausfall kostet 3-10x mehr als ein geplanter.
Zeitbasierte Wartung: Lager alle 6 Monate austauschen. Unabhaengig vom tatsaechlichen Zustand. Wir tauschen Teile aus die noch funktionieren (Verschwendung). Und werden trotzdem von Ausfaellen zwischen den Intervallen ueberrascht.
Praediktive Wartung: Kontinuierliches Condition Monitoring. Wartung wenn Daten sagen „in 2 Wochen gibt es ein Problem” — nicht frueher (Verschwendung), nicht spaeter (Ausfall). Optimales Timing, minimale Ausfallzeiten.
ROI in Zahlen¶
Industriekonsens (McKinsey, Deloitte):
- 25-30% Senkung der Wartungskosten
- 70-75% Senkung ungeplanter Ausfaelle
- 20-25% Verlaengerung der Geraetelebensdauer
- 35-45% Reduktion des Ersatzteilbestands
Ungeplanter Ausfall einer Produktionslinie: erhebliche Kosten pro Stunde (branchenabhaengig). Ein vorhergesagter und vermiedener Ausfall bezahlt das Projekt.
Condition Monitoring¶
Sensoren und Messwerte¶
Vibration — empfindlichster Indikator fuer den mechanischen Zustand: - Beschleunigungssensoren an Lagerhaeusern, Motoren, Getrieben - FFT (Fast Fourier Transform)-Analyse des Frequenzspektrums - Charakteristische Frequenzen: BPFO, BPFI, BSF, FTF fuer verschiedene Lagerdefekttypen - Huelkurvenanalyse zur Erkennung fruehzeitiger Defekte
Temperatur: - Oberflaechentemperatur von Motoren, Lagern, Transformatoren - Thermokameras fuer beruehrungslose Messung - Trend: langsamer Anstieg ueber Baseline = Schmiermitteldegradation, Ueberlastung, verstopfter Kuehler
Elektrische Groessen: - Strom und Spannung — Motor Current Signature Analysis (MCSA) - Phasenasymmetrie = Wicklungsproblem - Stromanstieg bei konstanter Last = mechanischer Widerstand
Weitere: - Akustische Emission — Ultraschallerkennung von Leckagen, Teilentladungen - Druck — Hydrauliksysteme, Kompressoren, Filtersysteme - Durchfluss — Kuehlkreislaeufe, Schmiersysteme - Luftfeuchtigkeit — Transformatoroel, Isolierung
Sensorinfrastruktur¶
Nachruestung ohne Verkabelung:
Kabellose Vibrationssensoren (ABB, SKF, Fluke) mit 3-5 Jahren Batterielebensdauer. Installation in Minuten — Magnet oder Klebstoff am Lagergehaeuse. Kommunikation ueber BLE, Wi-Fi oder LoRaWAN zum Gateway → Cloud/Edge.
Integration mit bestehenden SPSen:
Die meisten modernen SPSen sammeln bereits Daten von Analogeingaengen. Keine zusaetzlichen Sensoren noetig — Daten einfach ueber OPC-UA exportieren. Einschraenkung: SPSen abtasten typischerweise langsam (1 Hz) — Vibration erfordert 10-50 kHz (dedizierter Sensor).
Anomalieerkennung¶
Baseline — was ist normal¶
Jede Maschine hat ihren „Fingerabdruck des Normalbetriebs”. Vibration bei 120 Hz mit Amplitude 2,5 mm/s ist normal fuer Motor X unter Last Y. Statistisches Modell des Normalzustands:
- Trainingsphase: 2-4 Wochen Datensammlung im Normalbetrieb
- Feature-Extraktion: Statistische Features (Mean, Std, RMS, Kurtosis, Crest Factor), Frequenz-Features (dominante Frequenzen, spektrale Entropie)
- Baseline-Modell: Multivariate Normalverteilung oder Autoencoder
Anomalie-Erkennungsmethoden¶
Statistische Methoden (schnell einsetzbar): - Z-Score pro Feature. Alert wenn |z| > 3 (3 Sigma). - Regelkarten (Shewhart, CUSUM, EWMA). Industriestandard, gut verstaendlich. - Vorteil: interpretierbar, wenige False Positives, kein Training erforderlich.
ML-Methoden (genauer, komplexer): - Isolation Forest: Unueberwacht, baumbasiert. Anomalien sind „leicht zu isolierende” Punkte. Schnell, wenig Speicher. - One-class SVM: Grenze um normale Daten. Alles ausserhalb = Anomalie. - Autoencoder: Neuronales Netzwerk komprimiert und rekonstruiert Eingabe. Hoher Rekonstruktionsfehler = Anomalie. Bewaltigt multivariate, nichtlineare Muster. - Temporale Modelle: LSTM sagt naechsten Zeitschritt vorher. Grosse Abweichung Vorhersage vs. Ist = Anomalie.
Alert-Management¶
Nicht jede Anomalie ist ein Alarm. Hierarchie:
- Info: Abweichung erkannt, Trendmonitoring aktiviert
- Warnung: Abweichung haelt an / waechst. Inspektion planen.
- Alert: Hohe Ausfallwahrscheinlichkeit innerhalb von X Tagen. Wartung planen.
- Kritisch: Unmittelbares Risiko. Abschaltung erwaegen.
Ermuedungspraevention: Zu viele Fehlalarme = Operatoren ignorieren sie. Ziel: <5% False-Positive-Rate. Alert-Tuning ist ein kontinuierlicher Prozess.
Remaining Useful Life (RUL)-Vorhersage¶
Anomalieerkennung sagt: „etwas stimmt nicht.” RUL-Vorhersage sagt: „es haelt noch ungefaehr 14 Tage.”
Ansaetze¶
Physik-basierte Modelle: Mathematisches Modell des Degradationsprozesses (Paris-Gesetz fuer Rissausbreitung, Archard-Gleichung fuer Verschleiss). Genau, erfordert aber tiefes Domaenenwissen und Verstaendnis spezifischer Ausfallmodi.
Datengetriebene Modelle:
- Trainingsdaten: Historische Run-to-Failure-Daten — Sensoren von Installation bis Ausfall. Je mehr Run-to-Failure-Zyklen, desto besser das Modell.
- Feature Engineering: Gleitfenster-Statistiken, Trend-Features, Frequenzbereichs-Features.
- Modell: Gradient Boosted Trees (XGBoost, LightGBM) fuer tabellarische Daten. LSTM/Transformer fuer Sequenzdaten. Survival Analysis (Cox Regression) fuer zensierte Daten.
- Output: Vorhergesagte RUL in Tagen/Stunden + Konfidenzintervall.
Hybrid: Physics-informed Neural Networks — ML-Modell mit physikalischen Constraints. Das Beste aus beiden Welten.
Ohne historische Ausfalldaten¶
Keine Run-to-Failure-Daten? (Die meisten Unternehmen haben keine.) Wir beginnen mit:
- Anomalieerkennung — erkennt Abweichungen vom Normalzustand
- Degradations-Tracking — Trends bei Schluesselindikatoren
- Expertenwissen — Wartungsteam weiss, was Indikatoren bedeuten
- Schrittweise Ansammlung von Ausfalldaten — jeder Ausfall = Trainingsdaten fuer zukuenftiges Modell
Typischerweise sammeln wir nach 1-2 Jahren Betrieb genuegend Daten fuer ein ueberwachtes RUL-Modell.
IoT-Dashboards¶
Grafana als Visualisierungsplattform¶
- Flottenuebersicht: Alle Maschinen auf einem Bildschirm. Gruen/Gelb/Rot. Drill-down ins Detail.
- Maschinendetail: Echtzeit-Sensordaten, Trends, historischer Vergleich, Vorhersagen.
- Schichtbericht: KPI pro Schicht — OEE, Verfuegbarkeit, Leistung, Qualitaet.
- Wartungsansicht: Offene Arbeitsauftraege, anstehende Vorhersagen, Ersatzteilbestand.
Alerting-Integration¶
Alert aus Monitoring → automatischer Workflow:
- Anomalie erkannt → Alert in Grafana
- Arbeitsauftrag erstellt in CMMS (SAP PM, Maximo, Fiix)
- Zuweisung an Techniker (automatisch oder manuell)
- Techniker diagnostiziert und repariert
- Reparaturbestaetigung → Arbeitsauftrag geschlossen
- Feedback an ML-Modell (war die Vorhersage korrekt?)
Mobiler Zugang¶
Wartungsteam im Feld braucht Daten auf dem Telefon:
- Responsive Grafana-Dashboards
- Push-Benachrichtigungen bei neuem Alert
- QR-Code an der Maschine → oeffnet das Maschinen-Dashboard auf dem Handy
- Offline-Zugang zu Runbooks und Dokumentation
Technologie-Stack¶
Sensoren: ABB, SKF, Fluke Wireless Vibration. Industrielle RTD/Thermocouple. Stromwandler.
Datenpipeline: MQTT, OPC-UA, Kafka, InfluxDB, TimescaleDB.
ML: scikit-learn, XGBoost, PyTorch (LSTM/Transformer), MLflow, Kubeflow.
Visualisierung: Grafana, Custom Web Dashboards.
Integration: SAP PM, IBM Maximo, Fiix CMMS, Custom Work Order Systeme.
Edge: Verarbeitung am Edge fuer Echtzeit-Anomalieerkennung (siehe Edge Computing).
Häufig gestellte Fragen
Pilot auf einer Linie/Zone: 2-3 Monate. Scale-out auf den gesamten Betrieb: 6-12 Monate. Abhaengig von der Komplexitaet der Integration mit bestehenden Systemen.
Wir sind hardware-agnostisch. NVIDIA Jetson, Raspberry Pi, industrielle IPCs, Zebra-Scanner, diverse PLC-Marken. Wir waehlen basierend auf Anforderungen, Umgebung und Zertifizierungen.