Richiedi preventivo → Server fermo · Emergenza
Upgrade · networking

Upgrade NIC: 10G non basta più per molti workload moderni.

I server enterprise di 5-7 anni fa montano spesso NIC 1G/10G integrate. Per workload moderni — vSAN, Storage Spaces Direct, Ceph, backup ad alta densità, replica DR — 25G/100G è diventato standard. Upgrade NIC è uno degli interventi a maggior impatto: poche centinaia di euro di scheda, beneficio nelle prestazioni applicative.

Quando upgrade NIC

Quattro indicatori che la rete è il bottleneck.

1 · Throughput plafonato

NIC monitoring mostra throughput costantemente intorno a 9-9.5 Gb/s su NIC 10G durante backup, replica, file transfer. Il NIC è saturo; sotto saturazione le applicazioni vedono latenza.

2 · Backup window over budget

Backup nightly di 4-6 TB su NIC 10G richiede tipicamente 2-3 ore. Se la finestra non basta più (10+ TB), upgrade a 25G riduce la finestra del 2.5×, 100G del 10×.

3 · vSAN / SDS sotto-performante

vSAN su 10G funziona ma latenza writes è marginale. 25G+ con RDMA porta latenza writes vSAN a livelli accettabili anche per database VM. Storage Spaces Direct idem.

4 · Migrazione VM lenta

vMotion / Live Migration di VM con 100+ GB RAM su 10G richiede minuti. Su 25G secondi. Su workload con HA dynamic è un fattore operativo, non solo prestazionale.

Vincoli tecnici

Cinque cose da verificare.

1 · PCIe slot disponibili e generazione

NIC 100G richiede PCIe Gen4 x16 (oppure Gen3 x16 ma con limit), NIC 25G richiede Gen3 x8 minimo. Slot disponibili sui server enterprise vanno verificati prima — sui sistemi più piccoli (1U) competono con HBA, GPU, controller.

2 · Cablaggio e optic

10G usa SFP+ (DAC fino a 7m, optic LR fino a 10km). 25G usa SFP28 (DAC 3m, optic LR). 100G usa QSFP28 (DAC 3m, optic varie). Compatibilità vendor optic↔NIC ↔ switch deve essere verificata: Cisco accetta solo Cisco-coded sui suoi switch (con tolleranze), Mellanox più aperto.

3 · Switch port disponibile

Verifichiamo che la porta switch supporti la velocità target. Breakout cable (1× QSFP28 100G → 4× SFP28 25G) è un trick utile per espandere capacità di porte 25G da uno switch 100G.

4 · Driver e OS

Driver NIC moderni (Mellanox OFED, Intel ICE) supportati nativamente su Linux kernel recente, Windows Server 2019+, ESXi 7+. Per RDMA su Windows: SMB Direct nativo. Su Linux: drivers RoCE / iWARP devono essere caricati.

5 · Configurazione MTU

Jumbo frames (MTU 9000) abilita throughput migliore su backup/replica. Va configurato consistentemente end-to-end: NIC, switch, controparte. Mismatch causa pacchetti dropped e packet path-MTU discovery problematici.

6 · NUMA awareness

Su server multi-socket il NIC è collegato a un CPU specifico via PCIe. Workload che gira su un altro CPU paga la cross-NUMA traffic. NIC placement ottimale considera quale CPU serve il workload primario.

Chip NIC e modelli

Cosa montiamo per velocità e budget.

# 10G — entry level enterprise (default su molti server) Intel X710-DA2 2× SFP+ · driver mature · workhorse Intel X722 Spesso integrato motherboard recente Broadcom 57414 2× SFP+ · vendor branded comune Mellanox ConnectX-4 Lx 25G capable, 10G mode # 25G — sweet spot 2026 Mellanox ConnectX-5 Ex 2× SFP28 · RDMA RoCE · golden Intel E810-XXVDA2 2× SFP28 · DPDK supported Broadcom 57414 2× SFP28 · alternativa solid # 100G — workload pesanti / AI / NVMe-oF Mellanox ConnectX-6 Dx 2× QSFP56 · RDMA · standard ML Mellanox ConnectX-7 2× QSFP112 · ultima gen Intel E810-CQDA2 2× QSFP28 · enterprise generic # OCP form factor (slot dedicato vendor) OCP 3.0 SFF Mellanox 25G/100G · Dell/HPE/Lenovo OCP 3.0 SFF Intel E810 / X710 versions # DPU / SmartNIC (per casi avanzati) NVIDIA BlueField-2/3 Offload kernel network · NVMe-oF AMD Pensando DSC2 Programmable · SDN
Processo di intervento

Quattro fasi.

1 · Audit topologia attuale

Server NICs esistenti, switch ToR (modello, porte disponibili, velocità supportate), cablaggio attuale, MTU configurazione, eventuali NIC team / LACP. Capiamo come è collegato il server alla rete prima di proporre l'upgrade.

2 · Selezione NIC e optic

NIC target in base a velocità, feature (RDMA, DPDK), budget. Optic / DAC coerenti con switch. Verifichiamo compatibilità vendor optic con switch ToR (Cisco/Arista/Mellanox).

3 · Installazione e configurazione

Installazione fisica NIC nel slot ottimale (NUMA-aware se multi-socket), cablaggio, configurazione MTU coerente con switch, eventuale teaming / LACP, RDMA enable se workload richiesto.

4 · Validazione e benchmark

iperf3 / qperf cross-server per verificare line rate, ping latency, jumbo frames passano. Su workload reale (backup, replica, vSAN) test sintetico prima del go-live.

Caso reale anonimizzato

Cluster Hyper-V Storage Spaces Direct: da 10G a 25G con RDMA.

Cliente settore servizi area Brescia, cluster Hyper-V 4 nodi con Storage Spaces Direct (S2D) hyperconverged. Nodi Lenovo SR650, NIC dual-port 10G Mellanox ConnectX-4 Lx. Workload: 80 VM produttive (DC, file, terminal server, gestionali). S2D su 10G funzionava ma latenza writes 8-15 ms in idle, picchi a 30-40 ms sotto carico — al limite per VM database SQL Server in piccolo.

Soluzione: upgrade ai NIC a Mellanox ConnectX-5 Ex 25G OCP 3.0 (form factor compatibile con SR650). Switch ToR Mellanox SN2010 già 25G-capable; servivano nuovi optic SFP28 + DAC 25G inter-nodo. SMB Direct (RDMA RoCE v2) abilitato lato Windows Server 2022, jumbo frames MTU 9000 end-to-end.

Esecuzione: 4 finestre serali, una per nodo. Live migration VM verso gli altri 3 nodi, server spento, swap NIC OCP, riconfigurazione switch port, boot, validazione, reintegrazione cluster.

Risultato: latenza writes S2D in idle scesa a 1.5 ms, sotto carico picchi 4-6 ms. CPU dei nodi sensibilmente meno usata grazie al kernel bypass di RDMA. Risk profile delle VM SQL migliorato visibilmente.

# Pre · 10G ConnectX-4 Lx · no RDMA S2D write idle 8-15 ms S2D write peak 30-40 ms CPU network 14-18% Live migration ~95 sec (VM 32GB) # Post · 25G ConnectX-5 Ex · RDMA RoCE S2D write idle 1.5 ms S2D write peak 4-6 ms CPU network 2-3% Live migration ~22 sec (VM 32GB)
Driver di costo

Tre voci sul preventivo NIC.

  1. NIC scelta — variabile principale. Mellanox ConnectX-5/6 ricondizionati certificati molto accessibili; Intel/Broadcom alternative.
  2. Optic e DAC — non trascurabili a 100G. DAC 1-3m sono economici; optic LR 10km sono più costosi.
  3. Configurazione switch e cablaggio — sostituzione cavi, riconfigurazione MTU, RDMA enable. Lavoro coordinato con il vostro net engineer dove necessario.
FAQ

Le domande che ci fanno più spesso.

Quando 1G è ancora ok e quando va aggiornato?

1G basta per: server di reparto piccoli, file server con utenza limitata, backup tradizionale lento. 1G NON basta per: virtualizzazione di reparto medio-grande, vSAN/Storage Spaces (richiede 10G minimo, 25G consigliato), backup nightly di TB di dati su finestra ridotta, replica DR sincrona. 10G è ormai il nuovo minimo per server enterprise mid-market.

RDMA: serve davvero o è marketing?

Per certi workload sì, davvero. RDMA (RoCE o iWARP) permette al NIC di parlare con la memoria del server remoto senza coinvolgere la CPU — latenza scende a 1-5 µs, throughput sale, CPU utilization scende drasticamente. È critico per: SMB Direct su Windows Server, NVMe-oF, vSAN su 25G+, GPU clustering AI. Per workload tradizionali (web, mail, DB single-server) RDMA non aggiunge nulla.

Posso mettere una NIC 100G su un server vecchio?

Fisicamente sì se ha uno slot PCIe Gen3 x16 o Gen4 x8 libero. Ma il bottleneck si sposta sul resto del sistema: CPU non riesce a saturare 100G di traffico, kernel network stack diventa la limit. Per usare 100G bene servono CPU recenti (Xeon Gen3+, EPYC Rome+), drivers DPDK, applicazioni progettate per offload. Su sistemi più vecchi 25G è già un grosso salto, e 100G è spreco.

Devo cambiare gli switch per mettere NIC 25G/100G?

Dipende dagli switch attuali. Switch ToR moderni (Mellanox SN/SX, Cisco Nexus 9300, Arista 7050X) supportano spesso 25G nativamente o via breakout. Switch più vecchi 10G-only no. Il bilancio costo: NIC 25G server + nuovi optic SFP28 + porta switch 25G compatibile. Spesso il salto da 10G a 25G è quasi gratis perché switch già pronti.

OCP NIC vs PCIe NIC, quale convenir?

OCP 2.0/3.0 NIC sono un form factor dedicato (slot interno proprietario) usato su molti server enterprise recenti per il primo NIC. Vantaggi: cabling cleanup, slot PCIe liberato per altre schede, gestione iLO/iDRAC integrata. Su upgrade preferiamo OCP dove disponibile. Su slot esterni aggiuntivi usiamo PCIe standard.

Quali brand NIC consigliate?

Per 10G/25G enterprise: Intel X710, X722, E810 (driver maturi), Broadcom NetXtreme E-series (default su molti vendor). Per 25G+/100G ad alte prestazioni e RDMA: Mellanox ConnectX-5/6/7 (NVIDIA, golden standard per RDMA), Intel E810-CQDA2, Broadcom Stingray. Vendor-branded (Dell, HPE) sono in genere rebrand dei chip Intel/Broadcom/Mellanox con firmware vendor.

Apriamo un dialogo

Dimmi marca, modello e obiettivo. Ti rispondo con un piano.

Inviami brand, modello (Service Tag / Serial / part number motherboard), workload obiettivo. Entro un giorno lavorativo ti rispondo con la fattibilità tecnica, i vincoli che ho visto e una stima onesta.