Manutenzione preventiva
Calendario di interventi programmati: pulizia, ri-pasta termica, health check, verifica connettori, sostituzioni preventive. Tipicamente su cadenza 24-36 mesi.
Manutenzione preventivaUn server enterprise muore raramente all'improvviso. Quasi sempre lo dice nei log per giorni o settimane prima. La manutenzione preventiva è la disciplina di leggerlo in tempo: refresh hardware, health check, ottimizzazione termica, firmware, sostituzioni mirate prima del guasto bloccante.
La manutenzione non è "un'unica cosa". È una collezione di interventi ciascuno con criteri propri, ciascuno con il proprio momento giusto.
Calendario di interventi programmati: pulizia, ri-pasta termica, health check, verifica connettori, sostituzioni preventive. Tipicamente su cadenza 24-36 mesi.
Manutenzione preventivaL'intervento "officina" classico: pulizia profonda, ri-pasta termica, ricablaggio ordinato, sostituzione batterie BMC/CMOS. Recupero estetico e termico.
Refresh hardwareLettura SEL e log BMC/IPMI, valutazione SMART dei dischi, controllo array RAID, analisi termica, verifica sensori. Restituisce un report scritto con priorità.
Health checkQuando crash, kernel panic, BSOD ricorrenti sembrano "problemi software" ma sono in realtà hardware. Distinguere è il nostro mestiere.
Diagnosi stabilità SORecupero da degrado filesystem, riorganizzazione archivi con frammentazione patologica, ricostruzione di volumi danneggiati. Su NTFS, ext4, XFS, ZFS.
Ricostruzione archiviAggiornamenti pianificati con matrice di compatibilità verificata e piano di rollback. Include microcode CPU per vulnerabilità side-channel.
Firmware & BIOSAnalisi storica delle temperature, intervento mirato per ridurre throttling e recuperare performance. Spesso il modo più rapido per rivitalizzare un server.
Ottimizzazione termicaVentole, batterie BMC, dischi con SMART in deriva, SSD a fine wear-leveling, ottiche SFP/QSFP degradate. Sostituzione prima che diventino guasti bloccanti.
Componenti usuratiSu un server enterprise, un'ora di fermo non pianificata costa tipicamente molto più di una giornata di manutenzione pianificata. Non per il costo della manutenzione: per il costo dell'indisponibilità, della perdita dati potenziale, dei ricambi reperiti d'urgenza, dell'effetto a catena su backup e DR.
La manutenzione preventiva non è una spesa "in più". È arbitraggio temporale: pagare poco in tempi normali per non pagare molto in tempo di crisi.
Raccolta log SEL/IPMI/SMART, snapshot configurazione (BIOS, firmware, RAID, fan curves), valutazione stato termico ed elettrico. Restituiamo un report scritto con priorità (rosso/giallo/verde).
Concordiamo gli interventi e una finestra (notturna, weekend, su componenti hot-swap senza fermo) compatibile con la criticità. Documento di intervento condiviso prima dell'esecuzione.
Ogni intervento ha checklist, foto del prima/dopo dove utile, registrazione di tutti i ricambi sostituiti con part-number e seriali. Niente "operazioni invisibili".
Stress test post-intervento dimensionati sulla criticità, aggiornamento report SEL azzerato (baseline pulita), consegna documento finale con stato del sistema e raccomandazioni per la prossima finestra.
La cadenza dipende da carico, ambiente termico e criticità. Una regola pragmatica: refresh hardware completo (pulizia, ri-pasta termica, verifica connettori e cablaggio, sostituzione batterie BMC/CMOS) ogni 24-36 mesi per server in produzione continuativa. Health check con lettura SEL e analisi log: ogni 6-12 mesi. Server in ambienti ostili (poveri di filtraggio aria, alte temperature ambiente, vibrazioni industriali) andrebbero serviti più spesso.
Pulizia profonda (rimozione polvere dissipatori, ventole, filtri), sostituzione pasta termica sui dissipatori CPU, verifica e ri-fissaggio dei connettori interni, ricablaggio ordinato, controllo serraggio dissipatori RAM, sostituzione batteria CMOS/BMC, ispezione visiva dei capacitor in cerca di rigonfiamenti, lubrificazione/sostituzione ventole rumorose, verifica corretto funzionamento PSU ridondanti, aggiornamento firmware critici. Si esegue tipicamente a server spento in finestra di manutenzione concordata.
Spesso è hardware sottostante che il SO espone come errore software. I sintomi tipici di guasto fisico mascherato da problema software: kernel panic correlati a eventi MCE nei log, BSOD con codici tipo WHEA_UNCORRECTABLE_ERROR, reboot random sotto carico, freeze in fasce orarie termiche specifiche. La nostra analisi parte sempre dai log BMC/IPMI prima di toccare il sistema operativo: se l'hardware è coerentemente sano, allora si guarda al SO. Per la sistemistica continuativa: AssistenzaServer.eu.
Sì, con pianificazione. Verifichiamo prima la matrice di compatibilità del vendor (alcune update richiedono salti intermedi obbligatori), controlliamo le release notes per impatti su licensing/funzionalità, predisponiamo un piano di rollback. L'aggiornamento avviene in finestra concordata con backup completo della configurazione precedente. Stato post-update validato con stress test prima del ritorno in produzione.
È un intervento mirato a ridurre il thermal throttling delle CPU e a riportare i sensori entro range nominali. Si compone di: lettura dati storici da BMC (temperature CPU, DIMM, VRM, ambient), ispezione airflow, pulizia dissipatori e filtri, sostituzione pasta termica (degrada misurabilmente dopo 3-4 anni), calibrazione delle curve fan, talvolta sostituzione ventole inadeguate per il carico attuale. È spesso il modo più rapido per recuperare 10-20% di performance perse a throttling.
Se la risposta è "più di tre", probabilmente sta perdendo performance a throttling termico e ha eventi che si accumulano nei log. Health check + refresh hardware è un investimento che si ripaga in vita utile recuperata.