1 · Throughput plafonato
NIC monitoring mostra throughput costantemente intorno a 9-9.5 Gb/s su NIC 10G durante backup, replica, file transfer. Il NIC è saturo; sotto saturazione le applicazioni vedono latenza.
I server enterprise di 5-7 anni fa montano spesso NIC 1G/10G integrate. Per workload moderni — vSAN, Storage Spaces Direct, Ceph, backup ad alta densità, replica DR — 25G/100G è diventato standard. Upgrade NIC è uno degli interventi a maggior impatto: poche centinaia di euro di scheda, beneficio nelle prestazioni applicative.
NIC monitoring mostra throughput costantemente intorno a 9-9.5 Gb/s su NIC 10G durante backup, replica, file transfer. Il NIC è saturo; sotto saturazione le applicazioni vedono latenza.
Backup nightly di 4-6 TB su NIC 10G richiede tipicamente 2-3 ore. Se la finestra non basta più (10+ TB), upgrade a 25G riduce la finestra del 2.5×, 100G del 10×.
vSAN su 10G funziona ma latenza writes è marginale. 25G+ con RDMA porta latenza writes vSAN a livelli accettabili anche per database VM. Storage Spaces Direct idem.
vMotion / Live Migration di VM con 100+ GB RAM su 10G richiede minuti. Su 25G secondi. Su workload con HA dynamic è un fattore operativo, non solo prestazionale.
NIC 100G richiede PCIe Gen4 x16 (oppure Gen3 x16 ma con limit), NIC 25G richiede Gen3 x8 minimo. Slot disponibili sui server enterprise vanno verificati prima — sui sistemi più piccoli (1U) competono con HBA, GPU, controller.
10G usa SFP+ (DAC fino a 7m, optic LR fino a 10km). 25G usa SFP28 (DAC 3m, optic LR). 100G usa QSFP28 (DAC 3m, optic varie). Compatibilità vendor optic↔NIC ↔ switch deve essere verificata: Cisco accetta solo Cisco-coded sui suoi switch (con tolleranze), Mellanox più aperto.
Verifichiamo che la porta switch supporti la velocità target. Breakout cable (1× QSFP28 100G → 4× SFP28 25G) è un trick utile per espandere capacità di porte 25G da uno switch 100G.
Driver NIC moderni (Mellanox OFED, Intel ICE) supportati nativamente su Linux kernel recente, Windows Server 2019+, ESXi 7+. Per RDMA su Windows: SMB Direct nativo. Su Linux: drivers RoCE / iWARP devono essere caricati.
Jumbo frames (MTU 9000) abilita throughput migliore su backup/replica. Va configurato consistentemente end-to-end: NIC, switch, controparte. Mismatch causa pacchetti dropped e packet path-MTU discovery problematici.
Su server multi-socket il NIC è collegato a un CPU specifico via PCIe. Workload che gira su un altro CPU paga la cross-NUMA traffic. NIC placement ottimale considera quale CPU serve il workload primario.
Server NICs esistenti, switch ToR (modello, porte disponibili, velocità supportate), cablaggio attuale, MTU configurazione, eventuali NIC team / LACP. Capiamo come è collegato il server alla rete prima di proporre l'upgrade.
NIC target in base a velocità, feature (RDMA, DPDK), budget. Optic / DAC coerenti con switch. Verifichiamo compatibilità vendor optic con switch ToR (Cisco/Arista/Mellanox).
Installazione fisica NIC nel slot ottimale (NUMA-aware se multi-socket), cablaggio, configurazione MTU coerente con switch, eventuale teaming / LACP, RDMA enable se workload richiesto.
iperf3 / qperf cross-server per verificare line rate, ping latency, jumbo frames passano. Su workload reale (backup, replica, vSAN) test sintetico prima del go-live.
Cliente settore servizi area Brescia, cluster Hyper-V 4 nodi con Storage Spaces Direct (S2D) hyperconverged. Nodi Lenovo SR650, NIC dual-port 10G Mellanox ConnectX-4 Lx. Workload: 80 VM produttive (DC, file, terminal server, gestionali). S2D su 10G funzionava ma latenza writes 8-15 ms in idle, picchi a 30-40 ms sotto carico — al limite per VM database SQL Server in piccolo.
Soluzione: upgrade ai NIC a Mellanox ConnectX-5 Ex 25G OCP 3.0 (form factor compatibile con SR650). Switch ToR Mellanox SN2010 già 25G-capable; servivano nuovi optic SFP28 + DAC 25G inter-nodo. SMB Direct (RDMA RoCE v2) abilitato lato Windows Server 2022, jumbo frames MTU 9000 end-to-end.
Esecuzione: 4 finestre serali, una per nodo. Live migration VM verso gli altri 3 nodi, server spento, swap NIC OCP, riconfigurazione switch port, boot, validazione, reintegrazione cluster.
Risultato: latenza writes S2D in idle scesa a 1.5 ms, sotto carico picchi 4-6 ms. CPU dei nodi sensibilmente meno usata grazie al kernel bypass di RDMA. Risk profile delle VM SQL migliorato visibilmente.
1G basta per: server di reparto piccoli, file server con utenza limitata, backup tradizionale lento. 1G NON basta per: virtualizzazione di reparto medio-grande, vSAN/Storage Spaces (richiede 10G minimo, 25G consigliato), backup nightly di TB di dati su finestra ridotta, replica DR sincrona. 10G è ormai il nuovo minimo per server enterprise mid-market.
Per certi workload sì, davvero. RDMA (RoCE o iWARP) permette al NIC di parlare con la memoria del server remoto senza coinvolgere la CPU — latenza scende a 1-5 µs, throughput sale, CPU utilization scende drasticamente. È critico per: SMB Direct su Windows Server, NVMe-oF, vSAN su 25G+, GPU clustering AI. Per workload tradizionali (web, mail, DB single-server) RDMA non aggiunge nulla.
Fisicamente sì se ha uno slot PCIe Gen3 x16 o Gen4 x8 libero. Ma il bottleneck si sposta sul resto del sistema: CPU non riesce a saturare 100G di traffico, kernel network stack diventa la limit. Per usare 100G bene servono CPU recenti (Xeon Gen3+, EPYC Rome+), drivers DPDK, applicazioni progettate per offload. Su sistemi più vecchi 25G è già un grosso salto, e 100G è spreco.
Dipende dagli switch attuali. Switch ToR moderni (Mellanox SN/SX, Cisco Nexus 9300, Arista 7050X) supportano spesso 25G nativamente o via breakout. Switch più vecchi 10G-only no. Il bilancio costo: NIC 25G server + nuovi optic SFP28 + porta switch 25G compatibile. Spesso il salto da 10G a 25G è quasi gratis perché switch già pronti.
OCP 2.0/3.0 NIC sono un form factor dedicato (slot interno proprietario) usato su molti server enterprise recenti per il primo NIC. Vantaggi: cabling cleanup, slot PCIe liberato per altre schede, gestione iLO/iDRAC integrata. Su upgrade preferiamo OCP dove disponibile. Su slot esterni aggiuntivi usiamo PCIe standard.
Per 10G/25G enterprise: Intel X710, X722, E810 (driver maturi), Broadcom NetXtreme E-series (default su molti vendor). Per 25G+/100G ad alte prestazioni e RDMA: Mellanox ConnectX-5/6/7 (NVIDIA, golden standard per RDMA), Intel E810-CQDA2, Broadcom Stingray. Vendor-branded (Dell, HPE) sono in genere rebrand dei chip Intel/Broadcom/Mellanox con firmware vendor.
Inviami brand, modello (Service Tag / Serial / part number motherboard), workload obiettivo. Entro un giorno lavorativo ti rispondo con la fattibilità tecnica, i vincoli che ho visto e una stima onesta.