Cuando los equipos reciben demasiadas alertas o demasiadas falsas alarmas, comienza a producirse un exceso de alertas. A medida que cualquiera de los factores aumenta, esa fatiga comienza a tener consecuencias negativas graves. Los abrumados respondedores de incidentes se acostumbran a las alertas falsas y priorizan las que son más fáciles de resolver rápidamente en lugar de los problemas más graves. Peor aún, a menudo simplemente comienzan a cerrar incidentes no resueltos para mantenerse dentro del tiempo de respuesta objetivo. Esto significa que las alertas reales se pierden en el ruido mientras aumentan los tiempos de respuesta a incidentes y las interrupciones graves.
Para corregir el exceso de alertas y evitar que vuelva a ocurrir en el futuro, debes mejorar la calidad de tu alerta. La adopción de una política de alerta de gestión de calidad (AQM) se centra en reducir el número de incidentes molestos para que usted se centre únicamente en con un verdadero impacto empresarial. Esto reduce el exceso de alertas y garantiza que usted y su equipo concentren su atención en los lugares correctos en los momentos correctos.
Eres un buen candidato para AQM si:
- Tienes demasiadas alertas.
- Tienes alerta que permanece abierta por largos periodos de tiempo.
- Tienes muchas alertas que no son relevantes.
- Sus clientes descubren sus problemas antes que sus herramientas de monitoreo.
Sugerencia
¿Quiere probar un enfoque de aprendizaje práctico antes de comenzar a implementarlo en su cuenta? Consulte el laboratorio de gestión de calidad de alerta.
¿Por qué utilizar alerta gestión de calidad?
Al adoptar prácticas basadas en la gestión de calidad de alerta, disminuirá el tiempo de respuesta y aumentará el conocimiento de eventos críticos. A medida que mejore su relación señal-ruido de alerta, disminuirá la confusión y podrá identificar y aislar rápidamente la causa raíz de sus problemas. El objetivo es reducir las alertas menos valiosas y al mismo tiempo crear formas más fáciles de identificar cuándo ocurren incidentes más valiosos. Esto resulta en:
- Mayor tiempo de actividad y disponibilidad.
- Reducción del tiempo medio de resolución (MTTR).
- Disminución del volumen de alerta.
- La capacidad de identificar fácilmente alertas que no son valiosas, para que puedas convertirlas en valiosas o eliminarlas.
Usando indicadores de rendimiento clave
Usar los indicadores de clave de rendimiento (KPI) correctos te ayuda a encontrar las alertas más ruidosas y menos valiosas para que puedas mejorar su valor o eliminarlas. Utilizará el proceso AQM para recopilar y medir el volumen de incidentes y los KPI de participación, luego los utilizará para identificar tendencias para solucionar problemas que crean problemas graves. A continuación, encontrará información sobre todos los KPI, así como una consulta NRQL para cada uno para ayudarlo a monitor desde cualquier lugar de la UI de New Relic.
Volumen incidente
Debes tratar el incidente (con o sin alerta) como una cola de tareas. Al igual que una cola, el número de alertas siempre debe ser lo más cercano a cero posible. Cada incidente debe desencadenar una acción de investigación o correctiva para resolver la condición. Si una alerta no resulta en algún tipo de acción, entonces debería cuestionar el valor de la condición de alerta.
En particular, si ve incidentes específicos que se desencadenan con frecuencia, entonces debería preguntarse si se encuentra en un estado constante de impacto significativo o si simplemente tiene un gran volumen de ruido. Los KPI del volumen de incidentes lo ayudan a responder esas preguntas y medir el progreso hacia un estado saludable de alertas de alta calidad.
Participación del usuario
Debes medir el valor de un incidente por la cantidad de atención que recibe. La cantidad de participación que recibe una alerta individual es una medida directa de su valor. Una mayor participación implica una alerta valiosa, mientras que una menor (o nula) participación implica que una alerta puede simplemente ser ruidosa y debe modificarse o desactivarse.
Existe una diferencia significativa entre medir el momento en que se toma conciencia del incidente y reconocer cuándo comienza la actividad de resolución. Si está utilizando una integración con New Relic alerta, asegúrese de que el evento Acknowledge
enviado a New Relic se active cuando comience la actividad de resolución, no cuando el incidente se envíe a la herramienta externa de gestión de incidentes.
¿Que sigue?
Una vez que implemente el proceso AQM del documento anterior, verá reducciones significativas en el volumen de alerta mientras mantiene la confiabilidad y la estabilidad. Sus KPI de AQM pueden proporcionar información precisa sobre estas mejoras cuando sigue las mejores prácticas enumeradas anteriormente.
Una vez que haya terminado de implementar AQM, también puede considerar mejorar y administrar otros aspectos de su plataforma, como: