Mantenimiento preventivo
Calendario de intervenciones programadas: limpieza, renovación pasta térmica, health check, verificación de conectores, reemplazos preventivos. Cadencia típica 24-36 meses.
">
Un servidor enterprise rara vez muere de repente. Casi siempre lo anuncia en los logs durante días o semanas antes. El mantenimiento preventivo es la disciplina de leerlo a tiempo: refresh hardware, health check, optimización térmica, firmware, reemplazos dirigidos antes del fallo bloqueante.
Calendario de intervenciones programadas: limpieza, renovación pasta térmica, health check, verificación de conectores, reemplazos preventivos. Cadencia típica 24-36 meses.
Limpieza profunda, pasta térmica CPU, reemplazo batería BMC/CMOS, inspección condensadores. Health check con lectura SEL/IPMI/SMART e informe escrito con prioridades.
Actualizaciones planificadas en matriz de compatibilidad validada y plan de rollback. Incluye microcode CPU para vulnerabilidades side-channel. Realizado en ventanas de mantenimiento acordadas.
Análisis histórico de temperaturas desde BMC, intervención dirigida para reducir el throttling, calibración de curvas de ventilación. A menudo la forma más rápida de recuperar 10-20% perdidos a throttling.
Ofrecemos contratos de mantenimiento solo hardware y hardware + software. Tres niveles SLA: Essential (health check anual, on-site en 5 días laborables), Business (health check semestral, refresh hardware programado, on-site en 2 días laborables), Critical (health check trimestral, on-site Lombardía en 4 horas laborables, pool de repuestos cold-spare pre-asignado, account técnico dedicado).
Depende de la carga, ambiente térmico, criticidad. Regla pragmática: refresh hardware completo cada 24-36 meses para servidores en producción continua. Health check con análisis de logs SEL cada 6-12 meses.
Limpieza profunda, reemplazo de pasta térmica en disipadores CPU, verificación de conectores internos, re-apriete de disipadores RAM, reemplazo de batería BMC/CMOS, inspección visual de condensadores, lubricación o reemplazo de ventiladores, verificación de PSU redundantes, actualizaciones firmware críticas.
A menudo es hardware que el SO expone como error de software. Señales típicas: kernel panics correlacionados con eventos MCE en logs, BSOD con códigos WHEA_UNCORRECTABLE_ERROR, reboots aleatorios bajo carga. Nuestro análisis siempre parte de logs BMC/IPMI antes de tocar el SO.
Sí, con planificación. Verificamos la matriz de compatibilidad del fabricante, revisamos release notes para impactos licensing/funcionalidad, preparamos un plan de rollback. Actualización en ventana acordada con backup completo de la configuración. Estado post-update validado con pruebas de stress antes del retorno a producción.
Si la respuesta es "más de tres años", probablemente esté perdiendo performance por throttling térmico y acumulando eventos en los logs. Health check + refresh hardware es una inversión que se amortiza en vida útil recuperada.