Alerta redundante entierra incidentes críticos bajo ruido. Evaluar su alerta existente es una parte clave de su estrategia de priorización, ya que la calidad de su alerta se traduce en qué tan bien responden sus equipos al incidente. Si hay demasiado ruido, corre el riesgo de fatigar a su equipo con incidentes de baja prioridad que tienen poco o ningún impacto comercial. Los incidentes que no se alertan, sin embargo, provocan interrupciones que afectan la experiencia de los clientes.
Objetivos
Este tutorial asume que ya tienes alerta activa. Ofrece algunas recomendaciones sobre cómo gestionar la calidad de su alerta y proporciona algunas consultas NRQL para crear otras nuevas. Vas a:
- Instalar el dashboard alerta de gestión de calidad (AQM)
- Diferenciar entre una alerta buena y una mala
- Revise nuestras cadenas NRQL recomendadas para crear alertas
Instalar el dashboard de AQM
AQM se centra en reducir el número de incidentes molestos para que su equipo se centre en con un verdadero impacto empresarial. Eres un buen candidato para AQM si:
- Tienes demasiadas alertas.
- Tienes alerta que permanece abierta por largos periodos de tiempo.
- Sus clientes descubren sus problemas antes que sus herramientas de monitoreo.
Para comenzar, instale el dashboard de AQM a través de nuestro inicio rápido:
Haga clic en el botón
Install now
.
Siga el símbolo para elegir la cuenta en la que desea instalar el dashboard .
Vea su dashboard.
Le recomendamos que pase al menos dos semanas con el dashboard de AQM. Durante ese tiempo, el dashboard de AQM recopilará datos sobre cómo interactúan sus equipos con todas sus alertas.
Como regla general, recomendamos eliminar este tipo de alertas:
- Genere incidentes "siempre activos" que tengan miles de minutos o más de duración acumulada.
- Cuando el 30% o más de las incidencias estén abiertas por menos de 5 minutos.
- Cuyo tiempo medio de cierre sea superior a 30 minutos.
- Crea más de 350 incidentes por semana.
Crear nueva alerta para picos de demanda
Con sus políticas existentes bajo revisión, es posible que desee crear nuevas alertas que se ajusten a los picos de demanda. Crear una buena alerta depende de la especificidad de su configuración. Dos alertas pueden compartir la misma consulta de condición de alerta, por ejemplo:
SELECT average(`apm.service.memory.heap.used`) FROM Metric WHERE appName = 'Inventory Service'
Si bien la consulta en sí es una política de alertas sólida, la forma en que se configura esta alerta puede generar redundancia o ruido. Una alerta mala puede tener una duración de ventana demasiado pequeña, un umbral bajo o ningún retraso o línea de base. Además, adjuntar una condición de alerta a una fuente de datos relativamente joven también puede crear problemas, ya que no hay suficiente historial para detectar un comportamiento anómalo.
Si estás listo para crear una nueva alerta, aquí tienes algunas consultas recomendadas que puedes utilizar para tu día de juego: