一、安装mellanox&nvidia ib网卡的服务器节点网络异常排查方法如下
1.检查ib网卡配置文件内容是否正确
2.检查核对ib线缆是否损坏或不兼容,如100G的卡用200G的线
3.检查交换机端口灯状态及服务器网卡端口灯状态
注意:网卡灯为黄色常亮,opensm服务未开启,绿色常亮说明网卡连接正常,网络如果不通,检查配置文件是否有误
4.检查IB驱动版本:ofed_info -s
注意:如果驱动版本不一致,需要更新驱动版本。更新方法参考我其它博文。
5.检查IB固件版本:ibstat | grep ‘Firmware version’
注意:如果固件版本不一致,需要更新固件版本。更新方法参考我其它博文。
6.检查PCI_Bus_Error:dmesg | grep "PCIe Bus Error"
注意:如果有输出,则表示有异常,可以下线报修。
7.检查Hardware_Error:dmesg | grep "Hardware Error"
注意:如果有输出,则表示有异常,可以下线报修。
8.检查设备的PCIE带宽:for i in $(lspci | awk "/Mellanox/{print\$1}");do lspci -vvs $i | grep LnkSta:;done
注意:如果pcie带宽不够,则需要下线报修。
9.检查IB pci设备数:lspci | grep Mellanox
注意:如果节点上的ib pci设备数不够,则需要报修。
10.检查IB 端口数:ibstat | grep CA
注意:如果端口数异常,可以先重启一下节点,检查一下pci设备数是否正常。如果问题依然存在,考虑报修。
11.检查IOMMU:dmesg -T -L | grep -i iommu
注意:如果开启了IOMMU,则需要通过bios关闭iommu。
12.检查寻址方式:mst start;mlxconfig -y -d mlx5_0 q IB_ROUTING_MODE_P1
注意:保证寻址方式一致,推荐采用LID寻址。如果不一致,需要调整。设置方法如下: mst start;mlxconfig -y -d mlx5_0 s IB_ROUTING_MODE_P1=LID;重启生效。Ø检查PCI_WR_ORDERING: mst start; mlxconfig -d /dev/mst/mt4123_pciconf0 q PCI_WR_ORDERING
注意:如果不是force_relax(1) ,则需要修改,否则会影响性能。设置方法如下:mststart;mlxconfig -d /dev/mst/mt4123_pciconf0 set PCI_WR_ORDERING=1;重启生效。
13.检查网卡工作模式:mlxconfig -d /dev/mst/mt4123_pciconf0 query LINK_TYPE_P1
注意:部分型号是双模网卡,可以以Infiniband模式工作,也可以以以太网模式工作,具体的应用场景根据十几情况确定。修改工作模式的方法:mlxconfig -d /dev/mst/mt4123_pciconf0 set LINK_TYPE_P1=1;重启生效。
14.检查交换机固件版本:flint -d lid-${交换机lid号},mlx5_0 q
注意:如果固件版本不一致,需要更新固件版本。更新方法参考我其它博文。