nvidia_gpu_exporter是一款专为Prometheus设计的Nvidia GPU指标导出工具,通过调用系统原生的nvidia-smi二进制程序采集GPU硬件信息及性能数据,并将指标以Prometheus可抓取的格式暴露,支持集成到监控系统中实现对GPU运行状态的实时监控与分析。
nvidia-smi获取GPU核心数据,包括但不限于GPU利用率、显存使用率、温度、功耗、风扇转速等关键指标,确保数据准确性和完整性。适用于需对Nvidia GPU进行性能监控的场景,包括:
nvidia-smi工具(通常随驱动一同安装,默认路径为/usr/bin/nvidia-smi)。nvidia-smi二进制文件。bashdocker run -d \ --name nvidia-gpu-exporter \ -p 9835:9835 \ # 默认暴露端口(具体端口以项目最新配置为准) -v /usr/bin/nvidia-smi:/usr/bin/nvidia-smi \ # 挂载主机nvidia-smi工具 --restart unless-stopped \ utkuozdemir/nvidia_gpu_exporter # 镜像名称(以实际仓库为准)
容器启动后,可通过http://<容器IP>:9835/metrics访问导出的GPU指标,例如:
nvidia_gpu_utilization{index="0",name="Tesla V100"} 85 nvidia_gpu_memory_used_bytes{index="0",name="Tesla V100"} 12884901888 nvidia_gpu_temperature_celsius{index="0",name="Tesla V100"} 72
在Prometheus配置文件中添加如下抓取规则:
yamlscrape_configs: - job_name: 'nvidia_gpu' static_configs: - targets: ['<容器IP>:9835'] # 替换为实际容器IP和端口
更多配置参数(如自定义端口、指标过滤、超时设置等)及高级用法,请参考项目***文档:nvidia_gpu_exporter GitHub仓库
来自真实用户的反馈,见证轩辕镜像的优质服务
免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
在 Linux 系统配置镜像加速服务
在 Docker Desktop 配置镜像加速
Docker Compose 项目配置加速
Kubernetes 集群配置 Containerd
在宝塔面板一键配置镜像加速
Synology 群晖 NAS 配置加速
飞牛 fnOS 系统配置镜像加速
极空间 NAS 系统配置加速服务
爱快 iKuai 路由系统配置加速
绿联 NAS 系统配置镜像加速
QNAP 威联通 NAS 配置加速
Podman 容器引擎配置加速
HPC 科学计算容器配置加速
ghcr、Quay、nvcr 等镜像仓库
无需登录使用专属域名加速
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429