Ubuntu22.04显卡驱动与内核版本不一致解决方案

有时候在使用 GPU 服务器时执行 nvidia-smi 会遇到以下报错:

Failed to initialize NVML: Driver/library version mismatch
NVML library version: 535.161

这说明 Nvidia 显卡驱动与内核版本不一致,我们可以查看一下内核版本:

cat /proc/driver/nvidia/version

显示结果如下:

NVRM version: NVIDIA UNIX x86_64 Kernel Module  535.154.05  Thu Dec 28 15:37:48 UTC 2023
GCC version:  gcc version 12.3.0 (Ubuntu 12.3.0-1ubuntu1~22.04)

因此显卡驱动的版本 535.161 比内核版本 535.154.05 更高,遇到这种情况可能重启服务器后即可恢复正常,如果没有重启条件则按以下方法尝试解决。

1. 卸载内核驱动

先卸载当前内核驱动:

sudo rmmod nvidia

此时可能会遇到报错:rmmod: ERROR: Module nvidia is in use by: nvidia_uvm nvidia_modeset,需要先卸载依赖:

sudo rmmod nvidia_uvm
sudo rmmod nvidia_modeset

卸载第二个依赖时会提示:rmmod: ERROR: Module nvidia_modeset is in use by: nvidia_drm,根据提示继续卸载依赖即可:

sudo rmmod nvidia_drm

如果遇到报错:rmmod: ERROR: Module nvidia_drm is in use,需要进行以下操作:

sudo lsof -n -w /dev/nvidia*  # 查看哪些进程使用了nvidia*
sudo kill <ID>  # 结束相关进程
lsmod | grep nvidia  # 查看kernel mod的依赖情况
sudo systemctl isolate multi-user.target  # 隔离多用户
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia

最后重新查看一下 GPU 信息:

nvidia-smi

2. 重装显卡驱动

卸载当前显卡驱动:

sudo apt-get purge nvidia*

然后查找可用的驱动版本:

ubuntu-drivers devices

结果如下:

== /sys/devices/pci0000:00/0000:00:02.0/0000:02:00.0/0000:03:0c.0/0000:06:00.0 ==
modalias : pci:v000010DEd00001B02sv000010DEsd000011DFbc03sc00i00
vendor   : NVIDIA Corporation
model    : GP102 [TITAN Xp]
driver   : nvidia-driver-545 - distro non-free
driver   : nvidia-driver-390 - distro non-free
driver   : nvidia-driver-450-server - distro non-free
driver   : nvidia-driver-535-server - distro non-free
driver   : nvidia-driver-418-server - distro non-free
driver   : nvidia-driver-535 - third-party non-free
driver   : nvidia-driver-470-server - distro non-free
driver   : nvidia-driver-470 - distro non-free recommended
driver   : xserver-xorg-video-nouveau - distro free builtin

安装对应版本驱动:

sudo apt-get update
sudo apt-get install nvidia-driver-535-server

最后重新查看一下 GPU 信息:

nvidia-smi

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-06-06 23:30:03       19 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-06 23:30:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-06 23:30:03       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-06 23:30:03       20 阅读

热门阅读

  1. php计模式之工厂模式详解

    2024-06-06 23:30:03       9 阅读
  2. mybatis执行自定义sql

    2024-06-06 23:30:03       8 阅读
  3. LightDB Pro*C SQLDA介绍

    2024-06-06 23:30:03       9 阅读
  4. Unity中的Surface Effector 2D组件

    2024-06-06 23:30:03       10 阅读
  5. 深度学习之指数移动平均模型(EMA)介绍

    2024-06-06 23:30:03       10 阅读
  6. 遥感图像的深度学习的任务类型

    2024-06-06 23:30:03       10 阅读
  7. 浏览器内置对象 window 用法集锦,看这篇就够了

    2024-06-06 23:30:03       9 阅读
  8. 【POSIX】消息类的格式与使用

    2024-06-06 23:30:03       9 阅读