Mellanox&nvidia ib高速网络异常排查FAQ

一、安装mellanox&nvidia ib网卡的服务器节点网络异常排查方法如下

1.检查ib网卡配置文件内容是否正确

2.检查核对ib线缆是否损坏或不兼容,如100G的卡用200G的线

3.检查交换机端口灯状态及服务器网卡端口灯状态

注意:网卡灯为黄色常亮,opensm服务未开启,绿色常亮说明网卡连接正常,网络如果不通,检查配置文件是否有误

 4.检查IB驱动版本:ofed_info -s

注意:如果驱动版本不一致,需要更新驱动版本。更新方法参考我其它博文。

5.检查IB固件版本:ibstat | grep ‘Firmware version’

注意:如果固件版本不一致,需要更新固件版本。更新方法参考我其它博文。

6.检查PCI_Bus_Error:dmesg | grep "PCIe Bus Error"

注意:如果有输出,则表示有异常,可以下线报修。

7.检查Hardware_Error:dmesg | grep "Hardware Error"

注意:如果有输出,则表示有异常,可以下线报修。

8.检查设备的PCIE带宽:for i in $(lspci | awk "/Mellanox/{print\$1}");do lspci -vvs $i | grep LnkSta:;done

注意:如果pcie带宽不够,则需要下线报修。

9.检查IB pci设备数:lspci | grep Mellanox

注意:如果节点上的ib pci设备数不够,则需要报修。

10.检查IB 端口数:ibstat | grep CA

注意:如果端口数异常,可以先重启一下节点,检查一下pci设备数是否正常。如果问题依然存在,考虑报修。

11.检查IOMMU:dmesg -T -L | grep -i iommu

注意:如果开启了IOMMU,则需要通过bios关闭iommu。

12.检查寻址方式:mst start;mlxconfig -y -d mlx5_0 q IB_ROUTING_MODE_P1

注意:保证寻址方式一致,推荐采用LID寻址。如果不一致,需要调整。设置方法如下: mst start;mlxconfig -y -d mlx5_0 s IB_ROUTING_MODE_P1=LID;重启生效。Ø检查PCI_WR_ORDERING: mst start; mlxconfig -d /dev/mst/mt4123_pciconf0 q PCI_WR_ORDERING

注意:如果不是force_relax(1) ,则需要修改,否则会影响性能。设置方法如下:mststart;mlxconfig -d /dev/mst/mt4123_pciconf0 set PCI_WR_ORDERING=1;重启生效。

13.检查网卡工作模式:mlxconfig -d /dev/mst/mt4123_pciconf0 query LINK_TYPE_P1

注意:部分型号是双模网卡,可以以Infiniband模式工作,也可以以以太网模式工作,具体的应用场景根据十几情况确定。修改工作模式的方法:mlxconfig -d /dev/mst/mt4123_pciconf0 set LINK_TYPE_P1=1;重启生效。

14.检查交换机固件版本:flint -d lid-${交换机lid号},mlx5_0 q

注意:如果固件版本不一致,需要更新固件版本。更新方法参考我其它博文。

相关推荐

  1. Mellanox&nvidia ib高速网络异常排查FAQ

    2024-06-19 08:56:01       10 阅读
  2. Linux 网络: 网卡速度异常案例(1)

    2024-06-19 08:56:01       13 阅读
  3. 网络问题排查方案

    2024-06-19 08:56:01       17 阅读

最近更新

  1. 专业课笔记——(第十二章:文件的读写)

    2024-06-19 08:56:01       0 阅读
  2. lvs集群

    2024-06-19 08:56:01       0 阅读
  3. Perl 语言入门学习

    2024-06-19 08:56:01       0 阅读
  4. 大模型/NLP/算法面试题总结3——BERT和T5的区别?

    2024-06-19 08:56:01       1 阅读
  5. 单元测试核心类备忘

    2024-06-19 08:56:01       1 阅读

热门阅读

  1. Ubuntu 查看设备温度

    2024-06-19 08:56:01       8 阅读
  2. 5、分支对比 - 课件

    2024-06-19 08:56:01       9 阅读
  3. Python----多线程使用

    2024-06-19 08:56:01       9 阅读
  4. 234. 回文链表

    2024-06-19 08:56:01       11 阅读
  5. 组帧的方法

    2024-06-19 08:56:01       7 阅读
  6. elementui写一个自定义的rangeInput的组件

    2024-06-19 08:56:01       9 阅读
  7. GitHub|GitLab它们的区别是什么?

    2024-06-19 08:56:01       11 阅读
  8. C++ day4

    C++ day4

    2024-06-19 08:56:01      9 阅读
  9. 基于单片机的直流电机调速系统设计探讨

    2024-06-19 08:56:01       8 阅读
  10. clean code-代码整洁之道 阅读笔记(第九章)

    2024-06-19 08:56:01       10 阅读