Cuando su sistema esté completamente instrumentado, podrá correlacionar datos entre la infraestructura de su sistema y las aplicaciones que admite su infraestructura. Sin embargo, es probable que tengas miles de hosts sin rostro asignando recursos a varias aplicaciones. Es posible que no tenga el contexto completo de lo que está sucediendo y dónde, lo que hace que encontrar datos relevantes sea abrumador. ¿Cómo clasifica todos sus datos para encontrar causas relacionadas con la infraestructura de aplicaciones fallidas?
Objetivos
Este documento le guiará en la búsqueda de datos relevantes dentro de la UI de la infraestructura. Vas a:
- Filtra los datos de tu infraestructura por atributo
- Identifique hosts y aplicaciones específicos sin contexto adicional
- Utilice el selector de tiempo para encontrar cuándo ocurrió un cambio
Explore los datos de su host para encontrar la causa de una interrupción
Identificar hosts defectuosos
Si no está seguro de cómo comenzar, le recomendamos que inicialmente determine el alcance de sus hosts según la gravedad de las alertas. Usando la descripción general de la página de resumen, puede ver que hay tres incidentes de alerta críticos sucediendo en su sistema.
Puedes usar la barra de filtro para ver datos solo sobre esas tres alerta crítica. En este caso, su consulta sería alertSeverity = 'CRITICAL'
, que limita sus datos agregados de 83 hosts a tres.
Si aún no has configurado , siempre puedes ordenar la tabla de resumen por hosts métrica. Por ejemplo, digamos que no tiene indicios de que los hosts estén fallando pero aún así se le notificó sobre un problema.
- Haga clic en la columna de nombre en la tabla de resumen. Puede ordenar en orden ascendente o descendente.
- En la captura de pantalla, ordenamos los hosts por uso de CPU, lo que colocó
host-tower-portland
en la parte superior con un 99,84 % de CPU. - Repita el mismo proceso para el uso de la memoria, el uso del almacenamiento, etc., si es necesario. Repita hasta que haya encontrado un patrón de comportamiento anómalo.
- Cuando tenga tiempo, considere crear alertas para cualquier umbral crítico.
Filtrar por nombre de la aplicación
Una vez que haya identificado un host relacionado con el incidente, puede hacer clic para ver datos solo sobre ese host. En este escenario, hemos elegido apache-svr01
. Dado que estamos intentando resolver un problema relacionado con la aplicación, comenzamos en el mapa de servicios en la página del host. Este mapa le muestra qué aplicaciones dependen del host elegido.
Regrese a la página de resumen de infraestructura para que pueda actualizar su consulta. Queremos evaluar todos los hosts relacionados con esta aplicación incluso si aún no están alertando. Ver el host problemático en el contexto de su conjunto de socios mejora su comprensión de la causa del error de la aplicación. Por ejemplo, tal vez los otros hosts se estén acercando a un umbral, o tal vez no haya creado una alerta para esos otros hosts.
Ajuste la barra de filtro para mostrar los hosts relacionados con la aplicación Orders team
. Su consulta ahora debería leer apmApplicationNames = Orders team
.
Este filtro amplió el radio del incidente más allá de su host apache_svr01
inicial, pero aún mantuvo el alcance de sus datos en un conjunto relevante. Desde aquí, puede comenzar a profundizar en qué limitación de recursos está afectando el rendimiento.
- Dado que solo un par de estos hosts están alertando, puede descartar un posible problema con la base de datos, que afectaría a todos los hosts.
- En su lugar, puede optar por profundizar en las pestañas Sistema, Red, Procesos, Almacenamiento o contenedor Docker. El siguiente documento de esta serie cubre cómo comparar y correlacionar el comportamiento de los datos.
Ajuste el selector de tiempo para encontrar cuándo ocurrió un cambio por primera vez
Ajustar el selector de tiempo le permite ver cómo han cambiado sus datos con el tiempo. Esta acción le permite realizar un seguimiento de cuándo se produjo un cambio por primera vez. Miremos estos gráficos métricos alternados entre hace 3 horas y hace 6 horas.
Su serie temporal a las 6 horas no muestra un aumento obvio en la utilización del disco. Cambiado a un parámetro de 3 horas, puede ver aproximadamente cuándo el comportamiento comenzó a cambiar. Tus gráficos métricos te dan una pista visual cuando ocurre un pico o una caída.
Si ha habido un aumento inesperado en la carga, el mosaico
Events
mostrará muchos o muy pocos eventos esperados.
El mosaico
Alerts
muestra la cantidad de hosts que actualmente están alertando con un umbral crítico o de advertencia. Un aumento constante de la alerta a lo largo del tiempo podría indicar cuándo un cambio intensificó el comportamiento del incidente.
Los mosaicos y gráficas métricas pueden ayudarte a triangular el tiempo aproximado de un incidente. Esto es especialmente útil si la causa de un incidente se debe a una actualización de un proveedor externo o a un despliegue de otro equipo. Si ese es el caso, su próximo paso para profundizar más cambiaría.
¿Que sigue?
Hemos presentado cómo localizar aplicaciones defectuosas mediante la evaluación de los datos de su infraestructura. Al comenzar con la página de resumen, puede obtener una descripción general del rendimiento de sus hosts a lo largo del tiempo e identificar qué hosts admiten aplicaciones defectuosas.
Pero, ¿cómo utiliza los datos de su infraestructura para tomar una decisión sobre la asignación de recursos? El siguiente documento cubre cómo puede profundizar en un incidente más específico, como la resolución de problemas de CPU alta.