Por: Allen Guttelewitz

|

22 Marzo, 2017

Administración integrada de red

Desde hace varios años, la red se ha convertido en el medio por el cual se desarrollaron y se siguen desarrollando una infinidad de tecnologías, aplicaciones y servicios que han cambiado la forma de hacer negocios, por ejemplo; internet de las cosas, redes sociales, apps para todo tipo de necesidades, video vigilancia, etc.

Para que todos estos servicios funcionen adecuadamente, es necesarios que la RED esté disponible la mayor cantidad de tiempo, y el mejor tiempo de respuesta, de aquí la importancia de realizar una administración integrada de todas las tecnologías de comunicación, para llegar a proveer los servicios adecuadamente, de acuerdo a lo que los usuarios requieren; disponibilidad y rendimiento.

Para cumplir con las expectativas de disponibilidad y rendimiento, hay que monitorear adecuadamente los incidentes y elementos de red (ó NE por sus siglas en inglés). A continuación, nuestra perspectiva de cómo abordar estos temas y poder tener la visibilidad de la RED.

Disponibilidad

El primer paso es tener visibilidad de la RED, esto incluye administrar los incidentes que ocurren en los NE. Esto requiere monitorear todos los elementos de la red utilizando gestores de nicho por tecnología, marca y modelo (gestor de eventos) e integrarlos a un gestor de alto nivel (gestor de gestores), para centralizar los incidentes en un solo repositorio. En algunos casos se puede utilizar un gestor para administrar los incidentes de todos los NE de la red.

La sola visibilidad de los elementos de red e incidentes, no necesariamente nos dará los resultados deseados, por lo cual es necesario realizar varias tareas o procesos que incluyen: identificar los recursos y topología, configuraciones y dependencias (Network Management).

En el tratamiento de los incidentes, después del filtrado correspondiente para descartar eventos o alarmas no importantes, es necesario realizar un análisis causa-raíz para suprimir incidentes dependientes, redundantes y temporales para enfocarse en los NE, necesarios para acelerar el tiempo de resolución.

Como un incidente puede impactar un servicio particular, es necesario notificar esta situación con información relevante para el negocio, como ubicación, clientes, servicios afectados (enriquecimiento), y tomar las acciones necesarias para su resolución. Esta notificación puede crear un tiquete automático en una mesa de ayuda para su atención (Service Desk), también pueden enviarse notificaciones a las líneas de negocios responsables ante los usuarios. Es importante la notificación de los cambios de estado de dichos incidentes, incluyendo el cierre del incidente al ser solucionado.

Rendimiento

Otro tema importante para los clientes es el tiempo de respuesta de sus aplicaciones y servicios. Debido a que la red puede mostrar degradación de servicios y no necesariamente existe una falla de algún recurso de la misma, es necesario el monitoreo del rendimiento de los NEs y de la red de extremo a extremo.

Para determinar el rendimiento adecuado de la red, es necesario colectar datos de rendimiento de los recursos involucrados (Performance Management) utilizando una herramienta agnóstica para tener visibilidad integrada del rendimiento de toda la red, que en la mayoría de los casos es multi-tecnología y multi-marca. Existen herramientas de nicho por marca y modelo para recursos específicos que aportan información de elementos de red particulares.

Los datos de rendimiento deben ser comparados con los niveles de tolerancia establecidos para cada recurso de la red, y notificar posibles degradaciones o violaciones de dichos niveles. Lo importante de las mediciones de rendimiento, es poder determinar degradaciones tempranas para encontrar las causas para evitar que se conviertan en incidentes de un recurso y provocar incidentes que impidan el funcionamiento de los servicios o interrupciones de los mismos.

Con los datos de rendimiento colectados y los consolidados, constantemente se puede analizar para determinar tendencias en la red y aislar recursos que pueden provocar un incidente de degradación o falla.

Otra forma de validar el rendimiento, es realizar mediciones de las transacciones de los servicios, o simulaciones con transacciones sintéticas y de esta forma establecer el funcionamiento de dichos servicios.

Cuando se detecta una degradación de rendimiento, es necesario reportarlo de forma similar a un incidente para darle el tratamiento correspondiente y seguir los procedimientos para restaurar el servicio a su punto de funcionamiento dentro de parámetros establecidos.

Dependencias

Luego de establecidas las gestiones de incidentes y rendimientos de red, es importante anticiparse a los mismos para evitar que se conviertan en un incidente o problema. Para esto, es importante conocer cuál es la relación entre todos los elementos que participan en la prestación de servicios a los usuarios, como pueden ser elementos de red, servidores, aplicaciones, sistemas operativos, virtualización etc. Esta función se conoce como dependencias, y se realiza a través de un descubrimiento de todas las conexiones lógicas entre estos elementos. Una vez se conocen estas dependencias, se crean mapas que muestran qué elementos están relacionados entre sí (TADDM).

Estos mapas de dependencias, se utilizan para hacer análisis de impacto en el caso de un mantenimiento preventivo o correctivo, resolución de incidente de rendimiento, o cualquier otra tarea que provoque una afectación de los servicios.

Correlación y predicción

Los procesos analíticos de la información de red, apoyan en el descubrimiento de correlación entre incidentes que a simple vista en un portal o reportes es imposible visualizar. Estos procesos pueden descubrir relaciones entre múltiples incidentes que han ocurrido en el tiempo, y cuando ocurre algún evento bajo los mismos patrones de comportamiento se establece una alerta para actuar proactivamente antes que ocurra un incidente problema (Predictive Insights & Cognitive Analytics).

Como sabemos, el comportamiento normal de la red no es estático, sino es dependiente de horarios, días de la semana, feriados, vacaciones, fiestas locales, eventos especiales, etc., además del crecimiento o disminución de servicios utilizados por los usuarios debido a los cambios tecnológicos y de comportamiento.

Para conocer el comportamiento normal, se utiliza analítica cognitiva que estudia el comportamiento de la red en una base de tiempo. Este aprendizaje es constante y, continuamente se modifican los niveles de forma automática, lo que permite ir adaptándose al continuo cambio en la misma. Los cambios en el comportamiento pueden apoyar en áreas como, predicción de crecimiento de tráfico, alertas tempranas en incidentes de rendimiento, información para planificación de crecimiento, utilización para campañas proactivas a clientes, etc.

Corrección

Una vez se determina la causa del problema hay varias actividades para la restauración del recurso afectado. Esta reparación en algunos casos puede realizarse de forma automática dependiente del tipo de incidente, recurso y procedimientos existentes. Algunos de los procedimientos pueden ser; validación de la configuración del recurso (Configuration Manager), realizar diagnósticos según las especificaciones del fabricante, reparación de sistema alterno afectado (tolerante a fallas), cambio a un sistema alterno (alta disponibilidad), corrección de falla en hardware o software, correcciones temporales (workaround) cuando un incidente o falla requiere actividades y tiempo prolongado.

Las actividades anteriores se pueden realizar con procesos automáticos o reportar a otras instancias para asignación de tareas con prioridades adecuadas, por ejemplo, a una mesa de ayuda y proceder a su corrección o sustitución.

Finalmente, se deben cancelar los incidentes de falla, notificando de la restauración satisfactoria y puesta en operación normal, para cerrar los tiquetes abiertos en la mesa de ayuda.


Edición #68

Business transformation Edicion #68

Contenido

 

  • 25 años en la industria tecnológica
  • Su trabajo y dedicación han hecho posible lo que hoy es GBM
  •  Informe de sostenibilidad GBM 2016
  • Internet de las cosas está aquí, y ¿ahora qué?
  •  Gestione con éxito  la infraestructura de forma remota
  • Innovación: Un camino de retos constantes
  • Transformación  de los negocios y el avance de la sociedad
  • Evite ser presa fácil de los hackers
  • Cambios radicales
  • Se triplicará la adopción de soluciones conginitivas
  • Su negocio es tan rápido como el accesp a sus datos
  • Gestión de activos empresariales
  • Administración integrada de red
  • Plataforma bancaria digital
  • 5 tendencias que transformarán los negocios en 2017