Per produttore
Dell PowerEdge HPE ProLiant Lenovo ThinkSystem Fujitsu Primergy Supermicro IBM System x / Power Acer AltosIntervento & differenziatori
Datacenter Lombardia Aruba Ponte San Pietro Oltre il supporto del vendorCPU e pasta termica: recuperare le performance perse a throttling.
Su un server di 3-4 anni la pasta termica originale ha quasi sempre superato la sua vita utile. Il sintomo non è il crash — è il thermal throttling: la CPU lavora a frequenza inferiore di quella nominale per non superare i limiti termici. Si recupera tipicamente il 10-20% di performance perse con un intervento mirato.
Il throttling termico non si vede dal solo CPU%.
Un sistema con CPU al 100% di utilizzo ma con frequenza dinamica scesa per protezione termica sta facendo molto meno lavoro effettivo di quanto sembri. Diagnosi:
- Lettura sensori BMC (CPU temp, DIMM temp, VRM, ambient inlet): valori vicini al throttle threshold indicano il problema.
- Lettura MSR (
turbostat,perf stat): core frequency stabilmente sotto la base frequency sotto carico = throttling attivo. - Eventi PROCHOT nel SEL: marker espliciti che la CPU ha attivato la protezione termica.
Sotto un certo livello di gravità si interviene preventivamente; sopra una certa soglia l'intervento diventa urgente (rischio di errori transienti, ridotta vita utile della CPU).
Pasta termica, dissipatori, ventole, fan curve.
- Rifacimento pasta termica con prodotto enterprise (es. Honeywell PTM7950, Arctic MX-6, Thermal Grizzly Kryonaut). Pulizia del die con isopropilico ad alta concentrazione, applicazione misurata.
- Sostituzione dissipatori se la base è ossidata, le heatpipe degradate, o se il sistema è stato configurato con dissipatore non adatto al TDP attuale.
- Sostituzione ventole inadeguate (rumorose, in deriva, in modalità "fail to high").
- Calibrazione fan curve via BMC: spesso le curve di default sono troppo conservative e sacrificano performance per silenziosità. Curve dedicate per workload datacenter.
Cluster AI/GPU e sistemi ad alta densità.
Sui cluster AI/GPU (NVIDIA H100, H200, A100 su piattaforme Dell PowerEdge XE, HPE Apollo, Lenovo SR670, Supermicro HGX) il margine termico è strutturalmente più stretto. La pasta termica della GPU, le pad termiche su VRAM e HBM, l'airflow del chassis sono variabili che incidono direttamente sui tempi di training. Interveniamo anche su questo segmento, in finestre concordate per non perdere giorni di compute.
Le domande che ci fanno più spesso.
Ogni quanto va rifatta la pasta termica su un server?
Dipende da temperatura ambiente, carico, qualità della pasta originale. Linea generale: ogni 3-4 anni è opportuno controllare. Su sistemi a carico costante elevato (database, AI training, virtualizzazione densa) anche ogni 2-3 anni. Su workload office leggeri si può arrivare a 5+ anni.
Posso sostituire la CPU con una più potente sullo stesso socket?
Spesso sì, soggetto a: compatibilità BIOS (microcode aggiornato), compatibilità alimentazione (TDP della nuova CPU entro i limiti VRM motherboard), compatibilità raffreddamento (il dissipatore esistente deve gestire il nuovo TDP). Pagina dedicata: upgrade CPU server.
Su un server Dell o HPE il rifacimento pasta termica fa decadere la garanzia?
Sulla garanzia in corso del vendor: tipicamente sì, l'apertura del sistema fuori dal canale ufficiale invalida la copertura per quel componente. Su sistemi fuori garanzia non c'è nulla da invalidare. Su sistemi in garanzia ragioniamo caso per caso prima dell'intervento: spesso ha senso aspettare la scadenza, salvo problemi gravi.
Quanto tempo richiede il rifacimento pasta termica?
Su sistemi single-socket: 1-2 ore di manodopera effettiva, più 2-4h di stress test post-intervento. Su sistemi dual-socket o GPU server: 3-6 ore di manodopera. La finestra di fermo del server è concordata con il cliente — tipicamente notturna o weekend.