Dell服务器根据GPU温度调整风扇转速

前言

dell服务器自动风扇是根据CPU温度来调速的,我跑AI的时候cpu温度不高但是GPU温度很高导致显卡卡死PVE虚拟机直接挂起无法运行,我看了下也没有基于显卡温度调速的脚本,于是我就自己写了一个

基于ipmi工具 乌班图等linux先安装ipmi

apt install -y ipmitool

然后到idrac远程管理中的网络选项中打开 IPMI 设置

基础 

#关闭自动调速
ipmitool -I lanplus -U root -P XXX -H 192.168.3.30 raw 0x30 0x30 0x01 0x00 

ipmitool -I lanplus -U root -P XXX -H 192.168.3.30 raw 0x30 0x30 0x02 0xff 0x23

#80%转速
ipmitool -I lanplus -U root -P XXX -H 192.168.3.30 raw 0x30 0x30 0x02 0xff 0x50

最后的0x50是80的十六进制,也就是设置转速为80%

请注意要手动调速请先关闭自动调速,不然不会生效

自动脚本

下面是我写的自动脚本,写的比较差凑合用 (修改ipmi的参数为自己服务器的)

#!/bin/bash
# GPU个数
gpu_count=2
current_time=$(date "+%Y-%m-%d %H:%M")
users="chen"
max_temperature=0  # 用于记录最高的GPU温度
max_temperature_gpu=0  # 用于记录最高温度的GPU编号

# 遍历每个GPU,获取温度并记录最高温度的GPU编号和温度值
for ((i=0; i<gpu_count; i++))
do
    # 获取第i个GPU的温度
    temperature=$(nvidia-smi --query-gpu=temperature.gpu --format=csv,noheader,nounits | sed -n "${i+1}p")

    if [ $temperature -gt $max_temperature ]; then
        max_temperature=$temperature
        max_temperature_gpu=$i
    fi
done
# 根据最高温度的GPU进行对应的调速操作
if [ $max_temperature -gt 85 ]; then
    # 设置风扇速度为100%
    ipmitool -I lanplus -U root -P xxx -H 192.168.3.30 raw 0x30 0x30 0x02 0xff 0x64 && echo "$current_time - GPU $max_temperature_gpu 温度$max_temperature 过高 风扇转速已调整为100%" >> /home/$users/ipmi.log
elif [ $max_temperature -gt 72 ]; then
    # 设置风扇速度为80%
    ipmitool -I lanplus -U root -P xxx -H 192.168.3.30 raw 0x30 0x30 0x02 0xff 0x50 && echo "$current_time - GPU $max_temperature_gpu 温度$max_temperature 过高 风扇转速已调整为80%" >> /home/$users/ipmi.log
else
    # 设置风扇速度为50%
    ipmitool -I lanplus -U root -P xxx -H 192.168.3.30 raw 0x30 0x30 0x02 0xff 0x32 && echo "$current_time - GPU $max_temperature_gpu 温度$max_temperature过高 风扇转速已调整为50%" >> /home/$users/ipmi.log
fi

crontab 设置10秒运行一次

* * * * * sleep 10; /home/chen/ipmi-gpu.sh

相关推荐

  1. C语言之温度转换

    2024-06-08 10:32:08       27 阅读
  2. tensorflow调用gpu时报错:找不到cupti64_112.dll

    2024-06-08 10:32:08       25 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-08 10:32:08       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-08 10:32:08       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-08 10:32:08       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-08 10:32:08       20 阅读

热门阅读

  1. 小程序中 使用 UDPSocke通讯的流程

    2024-06-08 10:32:08       9 阅读
  2. Oracle如何定位硬解析高的语句?

    2024-06-08 10:32:08       8 阅读
  3. Unity学习要点

    2024-06-08 10:32:08       10 阅读
  4. kali-vulhub(持续更新)

    2024-06-08 10:32:08       8 阅读
  5. 每日一题36:数据分组之科目种类数量

    2024-06-08 10:32:08       10 阅读
  6. kubernetes之安装ingress-nginx(k8s1.19版本之后)

    2024-06-08 10:32:08       12 阅读
  7. azure cli的安装和使用

    2024-06-08 10:32:08       8 阅读
  8. go语言打印出变量的类型

    2024-06-08 10:32:08       6 阅读
  9. 【自动驾驶】点与向量从ego系转odometry系

    2024-06-08 10:32:08       10 阅读