No es un problema menor. Al menos la mitad de los administradores de data centers consultados a nivel global confirmaron que sufrieron un corte total de su operación o, al menos, una degradación grave de sus servicios de IT durante los últimos tres años. Sin embargo, si este nivel de incidencias te parece preocupante, es más relevante que seis de cada 10 entrevistados reconocieron que estas incidencias pudieron prevenirse con mejores sistemas de administración, monitoreo o configuración de sus sistemas. ¿Te ha pasado? ¿Sabes cómo monitorear el rendimiento de tu data center para evitar estos problemas?
Estas cifras fueron presentadas por el Uptime Institute (UI) en su más reciente consulta Annual Data Center Survey Results 2019. El ejercicio realizado entre marzo y abril de este año cuestionó a más de 1,600 administradores de data centers ubicados en todo el mundo, quienes confirmaron que los principales problemas o recortes operativos en 2018 se concentraron en razones como: la pérdida de energía eléctrica (33%) y la caída en la red (31%).
Lamentablemente ––agrega este think-tank enfocado en el desarrollo y capacitación sobre estándares globales para los servicios de IT–– el origen de estas incidencias no se limita a las condiciones de la infraestructura y los sistemas. Sí, monitorear de forma constante el rendimiento de todo lo que involucra un data center es fundamental, pero además es importante considerar y controlar el “error humano”.
“Al menos 70% de los incidentes y errores en los data centers son atribuibles al equipo de operación. Sin embargo, los líderes no deben confundirse, aunque parezca el error de una sola persona, casi siempre es la consecuencia de las políticas o decisiones del líder”, explica el instituto en su reporte Sustaining Operational Effectiveness for the Long Term.
Servicio completo de monitoreo
Parte del monitoreo consiste en evaluar las condiciones, reglas y procesos bajo los cuales opera el staff. Todos los data centers pueden presentar problemas ––dice el reporte del UI–– pero hay señales muy claras de que la gente se enfrenta a una alta posibilidad de cometer un error que puede convertirse en un corte grave de los sistemas o la infraestructura del data center. Este cuadro describe las señales, de acuerdo con la temporalidad en que se presentan.
Fuente: Sustaining Operational Effectiveness for the Long Term del UI
Ahora, cuando se trata de monitorear el rendimiento de la infraestructura y los sistemas, entonces hay muchos otros factores que considerar, dice el experto y speaker de temas de tecnología, Bill Kleiman. Normalmente se comienza por los equipos de cómputo, revisando las cargas de trabajo y descarga de información, condición de los servidores, de la red, el estado de los equipos de almacenamiento y con la arquitectura e infraestructura en general.
“Sin embargo, los data centers modernos requieren de un monitoreo más holístico”, dice Kleiman en un texto publicado en el portal TechTarget. Este monitoreo además debe considerar los factores ambientales como la humedad, la temperatura exterior y hasta el cambio climático en la zona donde se localiza.
Como parte del monitoreo de la parte de sistema e infraestructura, la experta Jessica Lulka dice que se debe considerar tener equipos de monitoreo que arrojen resultados de factores importantes como:
- Ancho de banda de la red
- Disponibilidad de la red en el tiempo
- El número de errores que arroja esta red
- Estados de los CPU
- Estado de la memoria y métricas de I/O
- Evaluación de las apps y su desempeño
- Desempeño del tráfico en el software
- Estado de la infraestructura
- Estado de la red de energía eléctrica
- Estado de la red de mantenimiento de temperatura
- Registro de voltaje
- Estado de la velocidad de los ventiladores
Finalmente, además se deben monitorear los factores externos, como el clima y la humedad. Si estás listo para llevar este control, estos son las consideraciones que debes tener:
- Registrar y observar la temperatura exterior. No es igual en todos los espacios, tendrás que adaptar las zonas a la temperatura de cada una.
- Establece más condiciones de enfriamiento en donde creas que sea necesario. Necesitas instalar enfriadores inteligentes que respondan a las necesidades de cada punto del data center. No se puede enfriar todo el espacio de forma genérica.
- Coloca varios detectores de humedad. Una pequeña o mínima gota de humedad dentro del data center puede costar millones de dólares. Ubica detectores que además arrojen alarmas preventivas.
- Conecta todos los sensores. Los sensores de temperatura y humedad deben estar conectados a los detectores de humo y regaderas de incendios. También deberían estar conectados al sistema de monitoreo de alarmas tempranas del data center.
- Gestiona tu sistema de alarmas y notificaciones. Evita llegar al plan reactivo para mejor avanzar en el plan preventivo a través de un sistema de alarmas y notificaciones inteligente.
- Adquiere un sistema de monitoreo remoto. A cualquier hora y en cualquier lugar, es mejor que todo el staff tenga la posibilidad de monitorear el data center 24 horas por 7 días.
Si tu empresa necesita una firma experta en una amplia gama de soluciones de infraestructura electromecánica para su data center y de sistemas de monitoreo de rendimiento, puedes contactar a uno de nuestros consultores. Ellos te ayudarán a garantizar la continuidad de la operación de tu negocio a través de varias soluciones de infraestructura que permiten reducir los gastos de operación, utilizando tecnologías sustentables y de última generación.