NVIDIA DCGM Exporter是一款基于NVIDIA Data Center GPU Manager (DCGM) 的Prometheus指标导出器,用于收集和暴露NVIDIA GPU的关键性能指标。该Docker镜像封装了DCGM Exporter的运行环境,可快速部署在包含NVIDIA GPU的服务器或容器化环境中,实现对GPU的实时监控与指标采集,供Prometheus抓取并集成到监控系统(如Grafana)中进行可视化分析。
bashdocker run -d \ --name dcgm-exporter \ --gpus all \ --restart always \ -p 9400:9400 \ -v /etc/localtime:/etc/localtime:ro \ nvcr.io/nvidia/k8s/dcgm-exporter:latest
参数说明:
--gpus all:授予容器访问所有GPU设备的权限(需nvidia-container-toolkit支持)。-p 9400:9400:映射容器内DCGM Exporter默认端口(9400)到主机,供Prometheus抓取指标。-v /etc/localtime:/etc/localtime:ro:同步容器与主机时间,确保指标时间戳准确。创建docker-compose.yml文件:
yamlversion: '3.8' services: dcgm-exporter: image: nvcr.io/nvidia/k8s/dcgm-exporter:latest container_name: dcgm-exporter restart: always deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu] ports: - "9400:9400" volumes: - /etc/localtime:/etc/localtime:ro # 可选:挂载自定义配置文件 # - ./dcgm-exporter.yaml:/etc/dcgm-exporter/dcgm-exporter.yaml environment: - DCGM_EXPORTER_PORT=9400 # 可选,指定暴露端口(默认9400) # 可选:指定自定义收集器配置 # - DCGM_EXPORTER_CONFIG=/etc/dcgm-exporter/dcgm-exporter.yaml
启动服务:
bashdocker-compose up -d
| 环境变量名 | 描述 | 默认值 |
|---|---|---|
DCGM_EXPORTER_PORT | 指标暴露端口 | 9400 |
DCGM_EXPORTER_COLLECTORS | 指定预定义收集器集合(如default、extended),多个集合用逗号分隔 | default |
DCGM_EXPORTER_CONFIG | 自定义收集器配置文件路径(需通过卷挂载到容器内) | /etc/dcgm-exporter/dcgm-exporter.yaml |
通过挂载自定义配置文件(dcgm-exporter.yaml)可定义采集指标类型、频率等。示例配置:
yamlcollectors: - name: gpu_utilization metric_name: dcgm_gpu_utilization type: gauge help: "GPU utilization percentage" dcgm_field: DCGM_FI_DEV_GPU_UTIL - name: memory_used metric_name: dcgm_memory_used type: gauge help: "Memory used in bytes" dcgm_field: DCGM_FI_DEV_MEM_USED
(完整字段列表参考DCGM字段文档)
部署后,可通过以下命令验证指标是否正常暴露:
bashcurl http://localhost:9400/metrics
返回结果应包含类似以下的Prometheus格式指标:
# HELP dcgm_gpu_utilization GPU utilization percentage # TYPE dcgm_gpu_utilization gauge dcgm_gpu_utilization{gpu="0",uuid="GPU-xxx"} 25 # HELP dcgm_memory_used Memory used in bytes # TYPE dcgm_memory_used gauge dcgm_memory_used{gpu="0",uuid="GPU-xxx"} 4294967296
下载并使用本镜像即表示您同意遵守镜像中包含的NVIDIA软件的许可协议条款。具体许可条款可参考NVIDIA***文档或镜像拉取时的附加说明。
来自真实用户的反馈,见证轩辕镜像的优质服务
免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
在 Linux 系统配置镜像加速服务
在 Docker Desktop 配置镜像加速
Docker Compose 项目配置加速
Kubernetes 集群配置 Containerd
在宝塔面板一键配置镜像加速
Synology 群晖 NAS 配置加速
飞牛 fnOS 系统配置镜像加速
极空间 NAS 系统配置加速服务
爱快 iKuai 路由系统配置加速
绿联 NAS 系统配置镜像加速
QNAP 威联通 NAS 配置加速
Podman 容器引擎配置加速
HPC 科学计算容器配置加速
ghcr、Quay、nvcr 等镜像仓库
无需登录使用专属域名加速
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429