Nagios je stale king of monitoring. Pro nase potreby — heterogenni prostredi s desitkami serveru, databazi a aplikacnich serveru — je Nagios s jeho ekosystemem pluginu neprekotany. Ale monitorovat Java aplikacni server neni jen kontrola, zda port odpovida.
JMX monitoring¶
Plugin check_jmx se pripojuje pres JMX port (SSL) ke GlassFish a cte metriky: heap memory, thread count, loaded classes, GC time, connection pool utilization, session count.
Custom pluginy pro business metriky¶
Perl pluginy kontroluji pocet zpracovanych objednavek za hodinu, meri response time SOAP endpointu, kontroluji stari posledniho zaznamu v audit logu. Business monitoring je to, co klient skutecne oceni.
Alerting a eskalace¶
Tristupnovy model: WARNING = email na tym. CRITICAL = SMS na on-call admina (reakce 30 min). CRITICAL dele nez 30 min = eskalace na senior admina. On-call rotace tydenne — vcetne vyvojaru, aby byli motivovani psat stabilni kod.
SLA reporting¶
Mesicni report z Nagios availability dat. Konzistentne plnime 99.5 procent uptime diky monitoringu a rychle reakci.
Pouceni¶
Monitoring neni nice-to-have, je to must-have. Investice se vrati pri prvnim incidentu, ktery zachytite driv nez klient.