linux下调节GPU的功率限制
您可以通过在应用程序运行时使用 nvidia-smi 监控 GPU 来确认是否正在发生这种情况。
nvidia-smi dmon
如果您希望调整功率上限,请按照以下步骤操作:
- 按如下方式确定当前、默认和最大功率限制:
-
nvidia-smi -q | grep 'Power Limit'
- 确保正在使用持久性模式。
-
sudo nvidia-smi -i 00000000:01:00.0 -pm ENABLED
- 如下增加所有 GPU 的 SW Power Cap 限制,其中xxx是所需的瓦特值:
sudo nvidia-smi -pl 240
注意:您必须在每次启动服务器时增加功率限制并设置持久性。
持久模式是用户可设置的驱动程序属性的术语,即使没有客户端连接到目标 GPU,它也能使目标 GPU 保持初始化状态。此解决方案已接近生命周期结束,最终将被弃用,取而代之的是Persistence Daemon
可以使用 nvidia-smi 或通过 NVML API 以编程方式设置持久性模式。
使用 nvidia-smi(作为 root)启用持久模式:
nvidia-smi -i <目标 gpu> -pm 已启用
为 GPU <target gpu> 启用了持久性模式。
全部做完。
使用 nvidia-smi 查看当前持久化模式:
<span style="background-color:#eaefe0"><span style="color:#224400">nvidia-smi -i <目标GPU> - q
==============NVSMI日志==============
时间戳:----
驱动程序版本:----
附加的GPU:----
GPU 0000:01:00.0
产品名称 : - -
显示模式 : - -
显示活动:----
<strong>持久模式:已启用</strong>
计费方式:----
...
</span></span>