Per produttore
Dell PowerEdge HPE ProLiant Lenovo ThinkSystem Fujitsu Primergy Supermicro IBM System x / Power Acer AltosIntervento & differenziatori
Datacenter Lombardia Aruba Ponte San Pietro Oltre il supporto del vendorHealth check: leggere il server prima che ti racconti un problema.
Lettura sistematica dei sensori BMC, del System Event Log, dello SMART status dei dischi, dei log del controller RAID, dello stato firmware. La maggior parte dei guasti hardware è preceduta da segnali nei log per giorni o settimane: l'health check è il modo di intercettarli prima che diventino fermo.
Sette domini, una checklist sistematica.
- Sensori BMC: temperatura CPU, DIMM, VRM, ambient inlet; tensioni; correnti; RPM ventole.
- System Event Log: pattern di eventi MCE, ECC oltre soglia, eventi termici, fault PSU/ventola.
- SMART status dischi: attributi critici, pending sector, reallocated sector, predictive failure, ore di lavoro.
- Log controller RAID: stato array, stato BBU/Flash, write-back attivo, drop dischi storici.
- Firmware e microcode: livello attuale vs raccomandato dal vendor, security advisory aperti.
- Stato OS layer (se accessibile): dmesg, Event Viewer, errori hardware-related lato sistema operativo.
- Postura sicurezza: TPM, secure boot, password BMC robuste, certificati validi.
Report con priorità d'azione.
L'output dell'health check non è "il sistema è ok / non è ok": è un report con priorità d'azione classificate:
- Urgente: condizioni che richiedono intervento entro pochi giorni (es. disco in predictive failure, BBU esausta).
- Importante: condizioni da pianificare nei prossimi 1-3 mesi (es. firmware con security advisory aperto, ventola in deriva).
- Pianificabile: opportunità a 6-12 mesi (es. refresh pasta termica preventivo, sostituzione batteria CMOS).
- Informativo: dati di baseline per confronti futuri.
Le domande che ci fanno più spesso.
Con che frequenza serve un health check?
Linea generale: una volta l'anno su server enterprise standard, due volte l'anno su sistemi critici o ad alto carico. Su flotte di server consolidate si può ragionare a campionamento ciclico.
Differenza tra health check e monitoraggio continuo?
Il monitoraggio (Zabbix, Prometheus, vendor tools come OpenManage / SIM / XClarity Administrator) osserva metriche in tempo reale e produce alert. L'health check periodico analizza le serie storiche con occhio esperto: pattern di degradazione lenta che il monitoring puro non cattura, correlazioni tra domini diversi, prossimità a soglie critiche. I due sono complementari.
L'health check richiede fermo del sistema?
No, è completamente in regime di sistema acceso. La lettura BMC, SEL e SMART avviene out-of-band o tramite agent leggeri. Eventuali test invasivi (stress test, memtest esteso) si fanno solo se la diagnosi indica un sospetto specifico — e in finestra concordata.