2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
我是如何发现英伟达 A100 图形处理器上隐藏的 146 瓦功耗(并构建了一个开源修复方案)
太长不看版:nvidia-smi 报告利用率为 0%,但图形处理器实际功耗为 146 瓦。标准遥测数据具有误导性。我构建了一个开源检测器和一种新的能效基准测试方法(计算能源强度)。
我意识到出问题的时刻
我当时正在英伟达 A100 SXM 图形处理器(使用 RunPod,自费)上运行矩阵乘法基准测试。内核执行完毕后,nvidia-smi 显示:
- 图形处理器利用率: 0%
- 功耗: 146.66 瓦
这不是瞬时峰值。该状态持续了 11 分钟以上。图形处理器锁定在 P0 状态,显存时钟频率卡在 1593 兆赫,在报告“空闲”的同时消耗电力。
我测试了 1 秒、100 毫秒甚至 10 毫秒的采样率——盲点依然存在。
这是一种幽灵异常:物理上不可能的遥测数据,导致集群配置过度、能源浪费以及错误的扩展决策。
我采取的应对措施
我进行了35 项硬件测试(24 块 A100,11 块 H100)并验证了以下结论:
- A100 的空闲功耗底线约为 67 瓦,但在 0% 利用率下,幽灵功耗可高达146 瓦。
- H100 未出现幽灵功耗——该问题是 A100 特有的(可能在霍珀架构中已修复)。
- 英伟达自己的多实例图形处理器文档承认:“不支持对共享图形处理器资源进行性能分析。”我的工具填补了这一空白。
我定义了计算能源强度 = 每秒浮点运算次数 / 焦耳。
参考值:A100 持续单精度浮点运算 → 56.8 亿次浮点运算/焦耳(测试 24,时长 900 秒)。
随后,我构建了人工智能图形处理器能源优化器——一个开源平台,其功能包括:
- 实时检测去同步/幽灵异常。
- 提供跨越 17 多家云服务提供商(亚马逊云科技、谷歌云平台、微软 Azure、RunPod 等)的计算能源强度基准测试。
- 与 Kubernetes / Run:ai 集成以实现自动驱逐。
- 通过单个
docker-compose up命令即可部署。
✅ 所有 40 项平台测试均通过。在线应用程序接口:ai-gpu-brain-v3.onrender.com/docs
为何这很重要
云服务提供商和人工智能团队正在为他们无法察觉的电力买单。在拥有 500 块图形处理器的规模下,幽灵浪费导致的隐藏能源和冷却成本每天可能超过150 美元。
该工具是开源的,但我需要赞助的计算资源(在多实例图形处理器分区上的 100-500 块图形处理器)来扩大验证规模并证明投资回报率。我是加拿大不列颠哥伦比亚省的一名独立研究员——迄今为止的所有测试均由我自费完成。
如果您管理图形处理器集群或在云服务提供商工作,请联系我们。
资源
- 📄 完整白皮书(详细方法论、35 项测试、统计置信度): github.com/mikebains41-debug/ai-gpu-energy-optimizer-/blob/main/WHITEPAPER.md
- 💻 GitHub 仓库(开源,采用麻省理工学院许可证的代码): github.com/mikebains41-debug/ai-gpu-energy-optimizer-
- 🚀 在线应用程序接口 / Swagger 文档: ai-gpu-brain-v3.onrender.com/docs
标签: gpu ai opensource observability energyefficiency
– 迈克·贝恩斯 (mikebains41@gmail.com)
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。