单机多卡训练报错NCCL版本有问题

在这里插入图片描述
torch.distributedtorch.distributed…DistBackendErrorDistBackendError: : NCCL error in: …/torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1275, internal error, NCCL version 2.14.3

这个不知道什么原因,然后解决方法是
增加环境变量NCCL_SOCKET_IFNAME=eth2

相关推荐

  1. 单机训练-DDP

    2024-01-10 00:02:02       42 阅读
  2. 【代码问题】mmcv+mmseg版本升级

    2024-01-10 00:02:02       18 阅读
  3. pytorch分布式训练卡住的问题

    2024-01-10 00:02:02       14 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-10 00:02:02       19 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-10 00:02:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-10 00:02:02       20 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-10 00:02:02       20 阅读

热门阅读

  1. Vue的Computed、Methods和Watch

    2024-01-10 00:02:02       48 阅读
  2. 快速排序和冒泡排序

    2024-01-10 00:02:02       39 阅读
  3. linux下数据库定时备份

    2024-01-10 00:02:02       36 阅读
  4. MySQL数据类型

    2024-01-10 00:02:02       45 阅读
  5. 泛型编程-常用模板

    2024-01-10 00:02:02       26 阅读
  6. 怎么形象化理解线程

    2024-01-10 00:02:02       31 阅读
  7. alist重置密码

    2024-01-10 00:02:02       47 阅读
  8. PCL 点云八叉树体素搜索

    2024-01-10 00:02:02       37 阅读
  9. 服务器常见问题以及处理方案

    2024-01-10 00:02:02       32 阅读
  10. DRM-VAE

    DRM-VAE

    2024-01-10 00:02:02      33 阅读