Nuestra integración de GPU AMD emplea nuestro agente de infraestructura con la integración Flex, que nos permite acceder a la utilidad SMI de AMD.

Luego de configurar nuestra integración de GPU AMD, verá un dashboard con las métricas de su GPU.
Cuando lo instales, obtendrás un dashboard prediseñado que contiene métricas de GPU cruciales:
- Utilización de GPU
- Uso y disponibilidad de memoria
- Procesos de cálculo activos
- Frecuencias de reloj
- Monitoreo de temperatura
- Consumo de energía
- Estados de rendimiento
- Información dinámica y estática sobre cada dispositivo compatible.
Instalar el agente de infraestructura
Para capturar datos con New Relic, instale nuestro agente de infraestructura. Nuestro agente de infraestructura recopila e ingiere datos para que usted pueda realizar un seguimiento del rendimiento de su GPU.
Puede instalar el agente de infraestructura de dos maneras diferentes:
- Nuestra instalación guiada es una herramienta CLI que inspecciona su sistema e instala el agente de infraestructura junto con la aplicación agente de monitoreo que mejor funcione para su sistema. Para obtener más información sobre cómo funciona nuestra instalación guiada, consulte la descripción general de instalación guiada.
- Si prefiere instalar nuestro agente de infraestructura manualmente, siga el tutorial de instalación manual para Linux, Windows.
Instalar AMD SMI
Antes de configurar la integración de Flex, instale la utilidad SMI de AMD:
Ubuntu/Debian:
$# Add AMD GPU repository$wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -$echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/debian/ ubuntu main' | sudo tee /etc/apt/sources.list.d/rocm.list$
$# Update and install$sudo apt update$sudo apt install amd-smi
RHEL/CentOS/Fedora:
$# Add AMD GPU repository$sudo tee /etc/yum.repos.d/rocm.repo <<EOF$[ROCm]$name=ROCm$baseurl=https://repo.radeon.com/rocm/yum/rpm$enabled=1$gpgcheck=1$gpgkey=https://repo.radeon.com/rocm/rocm.gpg.key$EOF$
$# Install AMD SMI$sudo yum install amd-smi
Importante
Luego de la instalación, cerciorar de que el binario amd-smi sea accesible en la RUTA de su sistema y que su usuario tenga las licencias adecuadas para acceder a los dispositivos GPU.
Configurar la integración de Flex para las GPU AMD
Flex viene incluido con el agente New Relic Infrastructure y se puede integrar con AMD SMI, una utilidad de línea de comando para monitorear dispositivos GPU AMD.
Siga estos pasos para configurar Flex:
Cree un archivo llamado
amd-smi-gpu-monitoring.yml
en esta ruta:bash$sudo touch /etc/newrelic-infra/integrations.d/amd-smi-gpu-monitoring.ymlTambién puedes descargarlo desde el repositorio git.
Actualice el archivo
amd-smi-gpu-monitoring.yml
con la configuración de integración:Copie el contenido del archivo (
.yml
) de la configuración de monitoreo de GPU AMD SMI y péguelo en su archivo de configuración.
Confirme que se están ingiriendo GPU métricas
La configuración de Flex será detectada y ejecutada automáticamente por el agente de infraestructura; no es necesario reiniciar el agente. Puede confirmar que se están ingiriendo métricas ejecutando esta consulta NRQL:
SELECT * FROM AMDGpuSample
Monitor su aplicación
Puedes crear un dashboard personalizado para monitorear la métrica de tu GPU AMD. A continuación se muestran algunos ejemplos de consultas NRQL para comenzar:
Utilización de la GPU
SELECT average(gfx_activity_percent) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Uso de la memoria
SELECT average(vram_used_mb), average(vram_total_mb), average(vram_free_mb) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Monitoreo de temperatura
SELECT average(temp_edge_c), average(temp_hotspot_c), average(temp_mem_c) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Consumo de energía
SELECT average(socket_power_w), max(max_power_w) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Frecuencias de reloj
SELECT average(gfx_0_clk_mhz), average(mem_0_clk_mhz), average(fclk_0_clk_mhz) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Actividad de la GPU por tipo
SELECT average(gfx_activity_percent), average(umc_activity_percent), average(mm_activity_percent) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Monitoreo de errores ECC
SELECT sum(ecc_total_correctable), sum(ecc_total_uncorrectable) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Rendimiento de PCIe
SELECT average(pcie_bandwidth_mb_s), average(pcie_current_bandwidth_sent), average(pcie_current_bandwidth_received) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Para crear un dashboard completo:
- Vaya a one.newrelic.com y haga clic en Dashboards.
- Haga clic en Create a dashboard.
- Agregue gráficos empleando la consulta NRQL proporcionada anteriormente.
- Personaliza el diseño de tu dashboard y almacénalo.
Para obtener documentos sobre el uso y la edición del panel, consulte nuestra documentación dashboard.
Resolución de problemas
Problemas comunes y soluciones:
No se encontró AMD SMI:
- Cerciorar de que AMD SMI esté correctamente instalado y accesible en su PATH
- Verifique AMD SMI con:
amd-smi version
Errores de licencia denegada:
- Cerciorar de que su usuario tenga las licencias adecuadas para acceder a los dispositivos GPU
- Es posible que necesites agregar tu usuario al grupo
render
:bash$sudo usermod -a -G render $USER - Cierre sesión y vuelva a iniciarla para que los cambios surtan efecto.
No se detectó GPU:
- Verifique que el sistema detecte la GPU AMD:
lspci | grep -i amd
- Compruebe si el controlador amdgpu está cargado:
lsmod | grep amdgpu
- Cerciorar de que su GPU AMD sea compatible con AMD SMI
Métrica faltante:
- Es posible que algunas GPU AMD más antiguas no admitan todos los sensores
- Comprueba qué métricas están disponibles:
amd-smi metric --help
- Verificar la compatibilidad de la GPU:
amd-smi list
¿Que sigue?
Puede adaptar la configuración de Flex para incluir o excluir información disponible en la utilidad AMD SMI. Las opciones adicionales de AMD SMI incluyen:
amd-smi list
- Lista de dispositivos GPU disponiblesamd-smi static
- Información estática de la GPUamd-smi metric
- Tiempo real GPU métricaamd-smi process
- Procesar información mediante GPUamd-smi monitor
- Modo de monitoreo continuo
Para obtener más información sobre cómo crear consultas NRQL y generar paneles de control, consulte estos documentos:
- Introducción al generador de consultas para crear consultas básicas y avanzadas.
- Introducción al dashboard para personalizar tu dashboard y realizar diferentes acciones.
- Administre su dashboard para ajustar su modo de visualización o para agregar más contenido a su dashboard.