Richiedi preventivo → Server fermo · Emergenza
Riparazione · memorie

Memorie RAM ECC: diagnosi banco per banco, sostituzione mirata.

Errori ECC oltre soglia, eventi MCE (Machine Check Exception), kernel panic correlati a banchi specifici, DIMM disabilitati dal BIOS: la diagnosi parte dai log BMC e arriva al singolo modulo colpevole. Sostituzione con DIMM compatibile per rank, voltaggio, frequenza e tipologia (Registered vs Load-Reduced).

Come si diagnostica

Il colpevole è quasi sempre già nei log.

I server enterprise loggano gli errori ECC sin dal primo evento. Il problema operativo è che fino a una certa soglia gli errori ECC correggibili non producono sintomi visibili — il sistema continua a funzionare. Quando il sintomo arriva (crash, reboot, kernel panic) il banco colpevole ha già accumulato evidenza nel SEL.

Lettura tipica via ipmitool sel elist o equivalenti vendor (Dell racadm, HPE hponcfg, Lenovo xclarity): si cerca il pattern Correctable ECC ricorrente su un banco specifico, l'eventuale logging limit reached, infine il Memory Device Disabled che marca il banco come non più utilizzabile.

Sostituzione: i vincoli

Non basta "un DIMM compatibile".

  • Rank: 1Rx4, 2Rx4, 2Rx8 — non tutti i rank sono ammessi in tutte le combinazioni di slot popolati.
  • Voltaggio: 1.5V vs 1.35V (DDR3), 1.2V vs 1.1V (DDR4/5). Mix possibile ma il sistema scende al voltaggio più alto.
  • Frequenza: il sistema scende alla frequenza più bassa presente. Mix dato da CPU + popolamento.
  • Registered vs Load-Reduced: non mescolabili. RDIMM e LRDIMM hanno topologie elettriche diverse.
  • Vendor SmartMemory: HPE Gen10+ richiede DIMM marchiati HPE per evitare warning persistenti su iLO. Compatibili tecnicamente, segnalati come "non-HPE Smart" se generic.
Quando non basta sostituire

Lo slot, non il modulo.

In casi rari il problema non è nel DIMM ma nello slot motherboard (pin piegato, traccia su PCB degradata). Si diagnostica spostando il DIMM sospetto in uno slot noto-sano: se l'errore segue il banco, è il DIMM; se l'errore resta sullo slot, è la motherboard. In quest'ultimo caso lo slot può essere isolato via BIOS (popolando solo gli slot sani) o richiede sostituzione motherboard.

FAQ

Le domande che ci fanno più spesso.

Errori ECC correggibili: devo intervenire subito?

Dipende dal volume. Eventi sporadici (1-2 al mese) sono fisiologici e gestiti dal sistema senza impatto. Eventi ricorrenti che superano il logging limit impostato dal vendor (tipicamente 1000 in un giorno) sono il segnale che il banco sta degradando: prima si interviene, meno si rischia che si trasformi in errore non correggibile (uncorrectable ECC) con crash del sistema.

Posso mescolare DIMM di vendor diversi?

Tecnicamente sì, se rispettano gli stessi parametri (rank, voltaggio, frequenza, registered/LR). Operativamente sui sistemi vendor-locked (HPE SmartMemory, Lenovo TruDDR) il sistema funziona ma logga warning persistenti. Per ambienti supporto-critici la nostra raccomandazione è omogeneità per slot popolato.

Quanto costa una sostituzione DIMM tipica?

È uno degli interventi a minor costo unitario nel range della riparazione hardware server. Variabili: capienza del modulo (16/32/64/128 GB), tipologia (RDIMM standard vs Vendor SmartMemory), velocità, canale di approvvigionamento. La stima dettagliata arriva con la richiedi un preventivo.

Eseguite memtest86+ esteso prima/dopo l'intervento?

Sì, quando il sintomo lo richiede o quando il sistema permette l'esecuzione offline. Su server in produzione critica facciamo affidamento principalmente sui log SEL/MCE che hanno la stessa sensibilità diagnostica senza richiedere fermo. Dopo la sostituzione: stress test (memtest86+ esteso o stress-ng --vm sotto Linux) per 4-12h prima del ritorno in produzione.