Intervento & differenziatori
Datacenter Lombardia Aruba Ponte San Pietro Oltre il supporto del vendorRebuild RAID fallito: non rilanciarlo. Diagnostica prima.
Quando un rebuild di array RAID fallisce, l'istinto è "ritento". È quasi sempre la mossa sbagliata. Le cause del fail vanno diagnosticate: il rilancio cieco aggiunge solo stress ai dischi più fragili e accelera ulteriori guasti.
Tre cause tipiche.
- URE su altro disco: durante il rebuild, il controller incontra un settore non leggibile (Unrecoverable Read Error) su uno dei dischi superstiti. Su array grandi con dischi capienti il URE Bit Error Rate dichiarato dal vendor (es. 1 in 10^14 o 10^15) significa che durante il rebuild di TB di dati c'è probabilità non trascurabile di incontrarne uno.
- Secondo disco al limite: un disco che era ancora "ok" sotto carico normale cede sotto lo stress aggiuntivo del rebuild. Tipico su batch di dischi della stessa origine.
- Controller che genera errori: in alcuni casi il rebuild fallisce non per i dischi ma per problemi del controller stesso (firmware buggy, backplane intermittente, cache batteria esausta che droppa write-back).
Diagnosi prima del prossimo tentativo.
- Lettura controller log: identificazione del settore esatto su cui il rebuild ha fallito.
- SMART check dei dischi sopravvissuti: chi è marginale?
- Decisione informata: rebuild ritentato (cambiando prima il disco più marginale), oppure recovery su cloni se i dischi sono troppo fragili.
Le domande che ci fanno più spesso.
Posso rilanciare il rebuild se sostituisco prima il disco più sospetto?
A volte sì, se la diagnosi indica che il secondo disco è il debole link e tutti gli altri sono effettivamente sani. Ma non senza diagnosi: sostituire a tentativi rallenta il recovery e introduce nuovi rischi.
Su array grandi (10+ TB per disco) il rebuild può fallire "per design"?
Sì, è il problema noto di RAID 5 con dischi capienti. URE Bit Error Rate × volume di dati riletti durante il rebuild dà probabilità non trascurabile di incontrarne uno. Per questo su array grandi RAID 6 (doppia parità) è quasi sempre più razionale di RAID 5.