Per produttore
Dell PowerEdge HPE ProLiant Lenovo ThinkSystem Fujitsu Primergy Supermicro IBM System x / Power Acer AltosIntervento & differenziatori
Datacenter Lombardia Aruba Ponte San Pietro Oltre il supporto del vendorCinque step. Sempre gli stessi. Anche su un guasto banale.
La disciplina diagnostica è ciò che impedisce di cambiare componenti a tentativi. Su un server enterprise un singolo passaggio saltato può costare giorni di fermo e migliaia di euro in ricambi inutili. Il nostro processo è semplice ma rigoroso: cinque step, sempre nello stesso ordine, anche quando il sintomo sembra ovvio.
Dal sintomo all'intervento, passando per la diagnosi.
Quasi tutti i casi che sembrano "guasto X" alla prima ispezione si rivelano essere una cosa diversa dopo la lettura dei log. Per questo non saltiamo mai il primo passaggio.
1 · Acquisizione log e contesto
System Event Log via IPMI / iDRAC / iLO / XClarity / iRMC / CIMC, dmesg / Event Viewer del sistema operativo, eventi BMC, storico interventi precedenti, contesto applicativo. Spesso il guasto è già documentato nei log da giorni o settimane prima — basta cercarlo.
2 · Riproduzione e correlazione
Cerchiamo la correlazione: i crash sono termici? Si correlano a errori ECC oltre soglia? A picchi di I/O? A eventi di alimentazione? Senza correlazione non si interviene. Sostituire un componente sospetto senza una correlazione documentata è il modo più rapido per perdere giorni e soldi.
3 · Isolamento per componente
Test mirati per isolare il colpevole: memtest86+ esteso per la RAM, smartctl long + fio per i dischi, prime / linpack per la CPU, controlli VRM e tensioni, lettura I2C dei sensori. Niente test "tanto per provare": ogni test risponde a un'ipotesi specifica nata dai log.
4 · Intervento e ricambio
Sostituzione del componente con parte ufficiale, rigenerata certificata o equivalente compatibile — sempre dichiarato in preventivo. Re-import della configurazione RAID, verifica licensing, transplant del SO senza reinstall quando possibile.
5 · Validazione post-intervento
Stress test mirati per 4-24 ore secondo criticità del sistema. Solo a validazione superata il server torna in produzione. Riepilogo scritto degli interventi effettuati, con documentazione delle modifiche su BIOS, BMC, controller RAID e dischi.
Tre canali. Tutti dichiarati prima dell'intervento.
La trasparenza sull'origine del ricambio è una regola assoluta. Prima di intervenire sai esattamente quale parte stiamo installando, da quale canale viene, e che garanzia ne consegue:
- Canale 1 — Hardware ufficiale. Ricambi nuovi dai canali del produttore. Prima scelta quando reperibili. Garanzia tipica 12 mesi vendor.
- Canale 2 — Refurbished certificato. Componenti rigenerati da fornitori qualificati, testati e certificati. Spesso miglior rapporto qualità/prezzo su server EOL. Garanzia tipica 12 mesi sul componente.
- Canale 3 — Donor / equivalenti compatibili. Per modelli datati o brand discontinui: identificazione donor per equivalenza elettrica/meccanica. Garanzia tipica 6 mesi, valutata caso per caso.
Tutto scritto, tutto tracciabile.
Per ogni intervento produciamo documentazione che resta al cliente, utile sia per audit interni sia per chiarezza nelle relazioni con vendor e assicurazioni:
- Diagnosi preliminare con causa più probabile, log analizzati, ipotesi alternative considerate.
- Preventivo dettagliato con tipologia ricambio dichiarata, costi, tempi, garanzia.
- Report di intervento con elenco componenti sostituiti, configurazioni modificate, risultati dei test post-intervento.
- Allegati tecnici: export SEL prima/dopo, screenshot del controller RAID, output dei test di stress.
Onesti anche quando ci costa.
Il nostro modello di business è interamente basato sull'intervento tecnico. Eppure ci sono casi in cui la diagnosi conclude "non conviene" — e lo diciamo apertamente:
- Quando il costo della riparazione supera quello realistico di rinnovo del sistema (e i benefici di durata non lo giustificano).
- Quando il workload richiede prestazioni superiori a quelle ottenibili dall'hardware esistente.
- Quando il profilo di sicurezza del sistema vecchio è incompatibile con le esigenze attuali (mancano feature di security recenti).
- Quando il consumo elettrico del vecchio sistema è significativamente superiore e il TCO a 24-36 mesi pende verso il rinnovo.
In questi casi diamo comunque la valutazione tecnica, utile per il tuo procurement o per confronto con altri preventivi. Zero costo, zero impegno.
Le domande che ci fanno più spesso.
Saltate qualche step quando il guasto sembra ovvio?
No, e per ragioni concrete. Il caso più frequente di "errore diagnostico" è proprio quando il sintomo iniziale fa pensare a un componente che in realtà non è il colpevole (es. crash che sembrano della CPU ma sono in realtà di un DIMM degradato, oppure il contrario). I cinque step sono sempre gli stessi anche su un guasto banale — al massimo li facciamo più rapidamente. Saltare lo step di correlazione è il modo più rapido per cambiare il componente sbagliato.
Quanto dura tipicamente il processo dalla diagnosi all'intervento concluso?
Diagnosi preliminare: 24-48h dalla nostra ricezione di brand/modello/sintomi/log. Ricambio a stock: 24-72h. Ricambio da reperire (motherboard EOL, CPU socket fuori produzione): pochi giorni a 2 settimane. Validazione post-intervento: 4-24h di test prima della riconsegna in produzione. La richiedi un preventivo iniziale già include una stima realistica caso per caso.
Posso vedere un esempio reale di come "leggete" un server?
Sì — sulla pagina di riparazione hardware server trovi un esempio (anonimizzato) di lettura SEL via ipmitool su un Dell PowerEdge che mostrava reboot random: il colpevole era nascosto nei log da giorni — predictive failure su un singolo banco RAM oltre soglia.
La validazione post-intervento è sempre la stessa o varia?
Varia per criticità. Su un server di reportistica interna: 4-8h di test mirati. Su un server transazionale o gestionale critico: 12-24h con scenari di carico simulati. Su un server di virtualizzazione che ospita più workload: oltre alla validazione hardware verifichiamo che le VM riprendano normalmente sotto carico.
Il cliente può seguire l'intervento step by step?
Sì. Per gli interventi più complessi tipicamente forniamo aggiornamenti via email/WhatsApp a ogni step (acquisizione log fatta, ipotesi confermata, ricambio identificato, intervento concluso, validazione superata). Per casi delicati firmiamo NDA preventivo prima di qualunque scambio di log o configurazioni sensibili.
Apri una richiedi un preventivo.
Brand, modello, sintomi, urgenza. In 24-48h diagnosi tecnica scritta. Senza impegno.