Maintenance préventive
Calendrier d'interventions programmées : nettoyage, renouvellement pâte thermique, health check, vérification connecteurs, remplacements préventifs. Cadence typique 24-36 mois.
">
Un serveur enterprise meurt rarement subitement. Presque toujours il l'annonce dans les logs pendant des jours ou des semaines avant. La maintenance préventive est la discipline de le lire à temps : refresh matériel, health check, optimisation thermique, firmware, remplacements ciblés avant la panne bloquante.
Calendrier d'interventions programmées : nettoyage, renouvellement pâte thermique, health check, vérification connecteurs, remplacements préventifs. Cadence typique 24-36 mois.
Nettoyage profond, pâte thermique CPU, remplacement batterie BMC/CMOS, inspection condensateurs. Health check avec lecture SEL/IPMI/SMART et rapport écrit avec priorités.
Mises à jour planifiées sur matrice de compatibilité validée et plan de rollback. Inclut microcode CPU pour vulnérabilités side-channel. Effectué en fenêtres de maintenance convenues.
Analyse historique des températures depuis BMC, intervention ciblée pour réduire le throttling, calibration des courbes de ventilation. Souvent le moyen le plus rapide de récupérer 10-20% perdus au throttling.
Nous proposons des contrats de maintenance hardware seul et hardware + software. Trois niveaux SLA : Essential (health check annuel, on-site sous 5 jours ouvrés), Business (health check semestriel, refresh matériel programmé, on-site sous 2 jours ouvrés), Critical (health check trimestriel, on-site Lombardie sous 4 heures ouvrables, pool de pièces de rechange pré-alloué, account technique dédié).
Cela dépend de la charge, de l'environnement thermique, de la criticité. Règle pragmatique : refresh matériel complet tous les 24-36 mois pour les serveurs en production continue. Health check avec analyse des logs SEL tous les 6-12 mois.
Nettoyage profond, remplacement de la pâte thermique sur les dissipateurs CPU, vérification des connecteurs internes, resserrage des dissipateurs RAM, remplacement de la batterie BMC/CMOS, inspection visuelle des condensateurs, lubrification ou remplacement des ventilateurs, vérification des PSU redondants, mises à jour firmware critiques.
Souvent du matériel que l'OS expose comme erreur logicielle. Signes typiques : kernel panics corrélés à des événements MCE dans les logs, BSOD avec codes WHEA_UNCORRECTABLE_ERROR, reboots aléatoires sous charge. Notre analyse part toujours des logs BMC/IPMI avant de toucher à l'OS.
Oui, avec planification. Nous vérifions la matrice de compatibilité du constructeur, vérifions les release notes pour impacts licensing/fonctionnalité, préparons un plan de rollback. Mise à jour en fenêtre convenue avec sauvegarde complète de la configuration. État post-update validé par tests de stress avant retour en production.
Si la réponse est « plus de trois ans », il perd probablement en performance à cause du throttling thermique et accumule des événements dans les logs. Health check + refresh matériel est un investissement qui se rembourse en durée de vie utile récupérée.