FastMoE 系统 易用且高效的基于 PyTorch 的 MoE 模型训练系统 Megatron-LM

FastMoE 系统

简介

FastMoE 是一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.

安装

源代码

依赖

启用了 CUDA 的 PyTorch 是必要的. 当前版本的 FastMoE 在 PyTorch v1.10.0 和 CUDA
11 的平台上经过了测试. 本系统从设计上也支持更旧或更新的 PyTorch 版本.

已知最老的支持的版本是 PyTorch 1.7.0 和 CUDA 10,
但已知某些老版本可能需要修改 FastMoE 的代码以实现支持.

如果需要使能 FastMoE 模型并行特性, 那么支持点对点通信的 NCCL 库 (即不旧于
2.7.5 版本) 也是必需的.

安装

FastMoE 包含一些定制的 PyTorch 算子, 包含一些 C 的组件. 用 python setup.py install
来简单地安装 FastMoE.

FastMoE 分布式模型并行特性默认是被启用的. 如果它需要被禁用,
则需要在运行上述命令时加入环境变量 USE_NCCL=0.

注意, 由于 PyTorch 框架通常仅集成了 NCCL 的运行时组件, 额外的 NCCL
开发包需要被安装在编译环境中, 而且它的版本需要与 PyTorch 的版本相对应. 推荐使用
PyTorch 官方 Docker 镜像,

最近更新

  1. TCP协议是安全的吗?

    2024-04-20 17:30:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-20 17:30:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-20 17:30:02       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-20 17:30:02       20 阅读

热门阅读

  1. 某互联网公司c++笔试题1

    2024-04-20 17:30:02       13 阅读
  2. 如何正确设计 TCP/IP 流式应用层网络协议

    2024-04-20 17:30:02       14 阅读
  3. coco128数据对象类别中英文对照json格式

    2024-04-20 17:30:02       12 阅读
  4. electron+Vue3构建桌面应用之IPC通讯

    2024-04-20 17:30:02       13 阅读
  5. 构建spotify的electron版本

    2024-04-20 17:30:02       12 阅读
  6. NLP预训练模型

    2024-04-20 17:30:02       12 阅读
  7. 微服务架构中的业务数据可视化设计

    2024-04-20 17:30:02       18 阅读
  8. Linux学习 - 常用和不太常用的实用awk命令

    2024-04-20 17:30:02       14 阅读