Richiedi preventivo → Server fermo · Emergenza
Manutenzione · preventiva & correttiva

La manutenzione che previene il guasto, non solo quella che lo ripara.

Un server enterprise muore raramente all'improvviso. Quasi sempre lo dice nei log per giorni o settimane prima. La manutenzione preventiva è la disciplina di leggerlo in tempo: refresh hardware, health check, ottimizzazione termica, firmware, sostituzioni mirate prima del guasto bloccante.

Le 8 aree

Otto interventi distinti, una sola logica: tieni in salute il sistema.

La manutenzione non è "un'unica cosa". È una collezione di interventi ciascuno con criteri propri, ciascuno con il proprio momento giusto.

Pianificata

Manutenzione preventiva

Calendario di interventi programmati: pulizia, ri-pasta termica, health check, verifica connettori, sostituzioni preventive. Tipicamente su cadenza 24-36 mesi.

Manutenzione preventiva
Refresh

Refresh hardware completo

L'intervento "officina" classico: pulizia profonda, ri-pasta termica, ricablaggio ordinato, sostituzione batterie BMC/CMOS. Recupero estetico e termico.

Refresh hardware
Diagnosi

Health check diagnostico

Lettura SEL e log BMC/IPMI, valutazione SMART dei dischi, controllo array RAID, analisi termica, verifica sensori. Restituisce un report scritto con priorità.

Health check

Stabilità del sistema operativo

Quando crash, kernel panic, BSOD ricorrenti sembrano "problemi software" ma sono in realtà hardware. Distinguere è il nostro mestiere.

Diagnosi stabilità SO
Filesystem

Ricostruzione archivi

Recupero da degrado filesystem, riorganizzazione archivi con frammentazione patologica, ricostruzione di volumi danneggiati. Su NTFS, ext4, XFS, ZFS.

Ricostruzione archivi
Firmware

Aggiornamento firmware, BIOS, microcode

Aggiornamenti pianificati con matrice di compatibilità verificata e piano di rollback. Include microcode CPU per vulnerabilità side-channel.

Firmware & BIOS
Thermal

Ottimizzazione termica

Analisi storica delle temperature, intervento mirato per ridurre throttling e recuperare performance. Spesso il modo più rapido per rivitalizzare un server.

Ottimizzazione termica
Wear-out

Sostituzione componenti usurati

Ventole, batterie BMC, dischi con SMART in deriva, SSD a fine wear-leveling, ottiche SFP/QSFP degradate. Sostituzione prima che diventino guasti bloccanti.

Componenti usurati
Preventiva vs correttiva

L'intervento più costoso è quello fatto a guasto avvenuto.

Su un server enterprise, un'ora di fermo non pianificata costa tipicamente molto più di una giornata di manutenzione pianificata. Non per il costo della manutenzione: per il costo dell'indisponibilità, della perdita dati potenziale, dei ricambi reperiti d'urgenza, dell'effetto a catena su backup e DR.

La manutenzione preventiva non è una spesa "in più". È arbitraggio temporale: pagare poco in tempi normali per non pagare molto in tempo di crisi.

Quando una manutenzione preventiva è urgente

  • Server in produzione > 3 anni mai aperto
  • Ventole rumorose o riscaldamento anomalo
  • Eventi correggibili ECC in crescita nei log
  • Server in ambiente ostile (polvere, calore)
  • Approvvigionamento ricambi diventato difficile
DISSIPATORE CPU · vista laterale [OK] PULIZIA PROFONDA · RI-PASTA TERMICA ARCTIC MX-6 → TEMP CPU: 88°C → 64°C (−24°C dopo refresh) THERMAL 95°C 80°C 65°C 50°C
[OK ] CPU temp avg 62°C · max 71°C · in range [OK ] PSU 1+2 redundancy · load 38% · 38% balance [WARN] DIMM A2 · correctable ECC count rising (+12/d) [WARN] FAN_3 RPM variance > 8% · bearing aging [WARN] Disk slot 4 · SMART 5/198 reallocated growing [FAIL] Battery BMC · voltage 2.7V (nominal 3.0V) · replace Action plan: refresh hw + replace DIMM_A2 + FAN_3 + BMC battery
Il nostro processo di manutenzione

Quattro fasi. Sempre tracciate per iscritto.

Health check iniziale

Raccolta log SEL/IPMI/SMART, snapshot configurazione (BIOS, firmware, RAID, fan curves), valutazione stato termico ed elettrico. Restituiamo un report scritto con priorità (rosso/giallo/verde).

Piano e finestra di manutenzione

Concordiamo gli interventi e una finestra (notturna, weekend, su componenti hot-swap senza fermo) compatibile con la criticità. Documento di intervento condiviso prima dell'esecuzione.

Esecuzione tracciata

Ogni intervento ha checklist, foto del prima/dopo dove utile, registrazione di tutti i ricambi sostituiti con part-number e seriali. Niente "operazioni invisibili".

Validazione e consegna

Stress test post-intervento dimensionati sulla criticità, aggiornamento report SEL azzerato (baseline pulita), consegna documento finale con stato del sistema e raccomandazioni per la prossima finestra.

FAQ · manutenzione

Le domande più frequenti su manutenzione preventiva e correttiva.

Ogni quanto andrebbe pianificata una manutenzione preventiva su un server enterprise?

La cadenza dipende da carico, ambiente termico e criticità. Una regola pragmatica: refresh hardware completo (pulizia, ri-pasta termica, verifica connettori e cablaggio, sostituzione batterie BMC/CMOS) ogni 24-36 mesi per server in produzione continuativa. Health check con lettura SEL e analisi log: ogni 6-12 mesi. Server in ambienti ostili (poveri di filtraggio aria, alte temperature ambiente, vibrazioni industriali) andrebbero serviti più spesso.

Cosa include esattamente un refresh hardware completo?

Pulizia profonda (rimozione polvere dissipatori, ventole, filtri), sostituzione pasta termica sui dissipatori CPU, verifica e ri-fissaggio dei connettori interni, ricablaggio ordinato, controllo serraggio dissipatori RAM, sostituzione batteria CMOS/BMC, ispezione visiva dei capacitor in cerca di rigonfiamenti, lubrificazione/sostituzione ventole rumorose, verifica corretto funzionamento PSU ridondanti, aggiornamento firmware critici. Si esegue tipicamente a server spento in finestra di manutenzione concordata.

Il mio server ha kernel panic o BSOD ricorrenti: è il sistema operativo o l'hardware?

Spesso è hardware sottostante che il SO espone come errore software. I sintomi tipici di guasto fisico mascherato da problema software: kernel panic correlati a eventi MCE nei log, BSOD con codici tipo WHEA_UNCORRECTABLE_ERROR, reboot random sotto carico, freeze in fasce orarie termiche specifiche. La nostra analisi parte sempre dai log BMC/IPMI prima di toccare il sistema operativo: se l'hardware è coerentemente sano, allora si guarda al SO. Per la sistemistica continuativa: AssistenzaServer.eu.

Aggiornate firmware, BIOS e microcode senza rompere la produzione?

Sì, con pianificazione. Verifichiamo prima la matrice di compatibilità del vendor (alcune update richiedono salti intermedi obbligatori), controlliamo le release notes per impatti su licensing/funzionalità, predisponiamo un piano di rollback. L'aggiornamento avviene in finestra concordata con backup completo della configurazione precedente. Stato post-update validato con stress test prima del ritorno in produzione.

Cosa significa "ottimizzazione termica" su un server già in produzione?

È un intervento mirato a ridurre il thermal throttling delle CPU e a riportare i sensori entro range nominali. Si compone di: lettura dati storici da BMC (temperature CPU, DIMM, VRM, ambient), ispezione airflow, pulizia dissipatori e filtri, sostituzione pasta termica (degrada misurabilmente dopo 3-4 anni), calibrazione delle curve fan, talvolta sostituzione ventole inadeguate per il carico attuale. È spesso il modo più rapido per recuperare 10-20% di performance perse a throttling.

Health check

Quanti anni ha il tuo server senza essere mai stato aperto?

Se la risposta è "più di tre", probabilmente sta perdendo performance a throttling termico e ha eventi che si accumulano nei log. Health check + refresh hardware è un investimento che si ripaga in vita utile recuperata.