Per produttore
Dell PowerEdge HPE ProLiant Lenovo ThinkSystem Fujitsu Primergy Supermicro IBM System x / Power Acer AltosIntervento & differenziatori
Datacenter Lombardia Aruba Ponte San Pietro Oltre il supporto del vendorOttimizzazione termica: riportare i sensori nei range del design.
Server in produzione che mostrano throttling termico operano sotto le proprie capacità nominali — spesso senza che il monitoring applicativo lo segnali esplicitamente. Lettura storica BMC, ispezione fisica del thermal path, intervento mirato: pasta termica, ventole, airflow del chassis, calibrazione delle fan curve.
Le specifiche del vendor presuppongono un thermal path in stato nominale.
Un server enterprise è progettato con un margine termico preciso: inlet temperature, delta-T attraverso il chassis, capacità dei dissipatori, RPM nominali delle ventole. Quando il thermal path si degrada — pasta termica vecchia, filtri sporchi, ventole inefficienti, blank panel mancanti — il sistema attiva le protezioni automatiche: prima aumenta gli RPM ventole (rumore in salita, consumo elettrico in salita), poi riduce la frequenza CPU per protezione (throttling).
Il sintomo applicativo del throttling è subdolo: il sistema sembra "lento" senza una causa software identificabile, picchi di latenza che non si correlano a carico, transazioni che scalano peggio del previsto. La diagnosi termica risolve il problema alla fonte.
Diagnosi → intervento mirato.
- Lettura sensori storici BMC: temperature CPU, DIMM, VRM, ambient inlet, RPM ventole, eventi PROCHOT.
- Ispezione fisica: airflow, blank panel, condizione filtri, eventuale ostruzione interna del chassis (cavi, dischi mal montati).
- Rifacimento pasta termica su CPU (e GPU dove rilevante).
- Sostituzione ventole inadeguate o in deriva.
- Calibrazione fan curve: ottimizzata per il workload effettivo, con margini sui threshold critici.
- Verifica condizioni datacenter: inlet temperature realistica, ricircolo aria calda, posizionamento nel rack.
Performance recuperata già al primo carico.
L'effetto di un'ottimizzazione termica ben fatta è misurabile entro le prime ore di carico post-intervento: temperature CPU che scendono di 5-15°C a parità di carico, frequenza dinamica che resta più stabile sul boost, eventi PROCHOT che spariscono dal SEL, RPM ventole più basse a parità di temperatura.
Tipico recupero di performance dichiarate dai sensori: 10-20% su workload CPU-bound. Su workload AI/GPU il margine può essere ancora più significativo.
Le domande che ci fanno più spesso.
Come distinguo un problema termico da un altro tipo di degrado?
Pattern caratteristici: temperature CPU/DIMM elevate solo sotto carico, eventi PROCHOT nel SEL, RPM ventole anomalmente elevate a parità di workload storico, frequenza CPU dinamica che resta sotto il base clock invece di salire al boost. Il monitoring termico via turbostat / perf mostra il throttling in atto.
L'ottimizzazione termica richiede fermo?
L'analisi preliminare è completamente online (lettura BMC e log). L'intervento fisico (apertura del server) richiede fermo, in finestra concordata. Su sistemi con failover, l'intervento può essere fatto in sequenza sui nodi senza fermo del servizio applicativo.
Differenza tra ottimizzazione termica e refresh hardware?
Il refresh hardware è un intervento più ampio che include la parte termica oltre ad altri controlli. L'ottimizzazione termica è mirata specificamente al thermal path quando il sintomo punta lì. Su un server con throttling documentato si fa l'ottimizzazione mirata; su un server in produzione 3-4 anni senza sintomi specifici, il refresh completo ha senso.