pytorch多卡分布式训练卡住的问题

最近需要模型进行多任务学习,完成代码后单卡跑是没有问题的。但是多卡跑基本上会出现卡在第一个迭代的情况。忙了一天总算是解决了。总结一下我这里的原因:

我的代码里执行了torch.distributed.all_reduce() 的操作,但这个操作只服务于一个task,导致的结果是多卡训练中,部分卡执行了torch.distributed.all_reduce(),部分卡没有执行该操作。 知道原因,解答方案也比较明了,要么让所有卡都执行torch.distributed.all_reduce(),要么让所有卡都不执行该操作。 我的模型不适应前者,因而我是把这部分给删了,从而解决。

实际上,尝试了很多种方案,最后发现问题出现在这里。这部分内容具体参考如下
https://github.com/pytorch/pytorch/issues/20630#issuecomment-730184591

相关推荐

  1. pytorch分布式训练卡住问题

    2024-04-28 19:00:05       34 阅读
  2. Pytorch分布式训练

    2024-04-28 19:00:05       37 阅读
  3. pytorch 并行训练

    2024-04-28 19:00:05       60 阅读
  4. pytorch 训练 accelerate gloo

    2024-04-28 19:00:05       56 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-28 19:00:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-28 19:00:05       101 阅读
  3. 在Django里面运行非项目文件

    2024-04-28 19:00:05       82 阅读
  4. Python语言-面向对象

    2024-04-28 19:00:05       91 阅读

热门阅读

  1. golang面试题:怎么避免内存逃逸?

    2024-04-28 19:00:05       29 阅读
  2. 使用minikube搭建本地k8s练习环境

    2024-04-28 19:00:05       34 阅读
  3. Threejs使用CSS2DRenderer后OrbitControls控制器不能用了

    2024-04-28 19:00:05       35 阅读
  4. 使用uniapp开发iOS应用有哪些优势和劣势

    2024-04-28 19:00:05       28 阅读
  5. 2024年水利水电安全员题库及答案

    2024-04-28 19:00:05       33 阅读
  6. Windows 11 轻量简单的美化方案

    2024-04-28 19:00:05       35 阅读
  7. C++的原子变量作用

    2024-04-28 19:00:05       33 阅读
  8. Docker-04 Docker镜像命令

    2024-04-28 19:00:05       30 阅读