『大模型笔记』常见的分布式并行策略(分布式训练)

常见的分布式并行策略(分布式训练)

一. 为什么分布式训练越来越流行

  • 近年来,深度学习被广泛应用到各个领域,包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中,一个共同的特点就是 模型规模越来越大,比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80 GB 的 A100,那么完整训练 GPT-3 的时长都需要1个月。
  • 模型规模的扩大,对硬件(算力、内存)的发展提出要求。然而,因为

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-28 05:18:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-28 05:18:05       100 阅读
  3. 在Django里面运行非项目文件

    2024-03-28 05:18:05       82 阅读
  4. Python语言-面向对象

    2024-03-28 05:18:05       91 阅读

热门阅读

  1. Redis中的缓存雪崩、缓存击穿、缓存穿透问题

    2024-03-28 05:18:05       44 阅读
  2. PTA------ 敲笨钟

    2024-03-28 05:18:05       48 阅读
  3. Filter和Intercepter中怎么获取Spring托管的bean对象

    2024-03-28 05:18:05       37 阅读
  4. yolov8 在训练好的模型基础上切换为中文标签

    2024-03-28 05:18:05       40 阅读
  5. 面向对象编程(一)

    2024-03-28 05:18:05       42 阅读
  6. 实现阻塞队列

    2024-03-28 05:18:05       36 阅读
  7. Scikit-learn 数据挖掘和数据分析工具的使用指南

    2024-03-28 05:18:05       42 阅读
  8. Ubuntu搭建环境Cmake-Libtorch-Torchvision-PCL-VTK-OpenCV

    2024-03-28 05:18:05       46 阅读
  9. 当前项目下包的管理(添加和删除)

    2024-03-28 05:18:05       41 阅读
  10. uniapp保留两位小数,整数后面加.00

    2024-03-28 05:18:05       36 阅读
  11. docker基础(一)

    2024-03-28 05:18:05       35 阅读
  12. 机器学习和神经网络8

    2024-03-28 05:18:05       46 阅读
  13. vscode 系列文章目录 - c/c++插件配置头文件定义

    2024-03-28 05:18:05       41 阅读