大语言模型分布式训练技术原理

2024-01-27 06:04:05
开发
48

分布式训练技术原理

数据并行
- FSDP
  - FSDP算法是由来自DeepSpeed的ZeroRedundancyOptimizer技术驱动的，但经过修改的设计和实现与PyTorch的其他组件保持一致。FSDP将模型实例分解为更小的单元，然后将每个单元内的所有参数扁平化和分片。分片参数在计算前按需通信和恢复，计算结束后立即丢弃。这种方法确保FSDP每次只需要实现一个单元的参数，这大大降低了峰值内存消耗。(数据并行+Parameter切分)
- DDP
  - DistributedDataParallel (DDP)， 在每个设备上维护一个模型副本，并通过向后传递的集体AllReduce操作同步梯度，从而确保在训练期间跨副本的模型一致性 。为了加快训练速度， DDP将梯度通信与向后计算重叠 ，促进在不同资源上并发执行工作负载。
- ZeRO
  - Model state
    - Optimizer->ZeRO1
      - 将optimizer state分成若干份，每块GPU上各自维护一份
      - 每块GPU上存一份完整的参数W,做完一轮foward和backward后，各得一份梯度,对梯度做一次 AllReduce（reduce-scatter + all-gather） ， 得到完整的梯度G,由于每块GPU上只保管部分optimizer states，因此只能将相应的W进行更新,对W做一次All-Gather
    - Gradient+Optimzer->ZeRO2

原文地址:https://blog.csdn.net/weixin_32393347/article/details/135859502 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1751003096219258880.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-01-27 06:04:05 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-01-27 06:04:05 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-01-27 06:04:05 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-01-27 06:04:05 100 阅读
NoSQL之Redis非关系型数据库

2024-01-27 06:04:05 101 阅读
2024.7.22 作业

2024-01-27 06:04:05 97 阅读
GDB调试正在运行的程序

2024-01-27 06:04:05 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-01-27 06:04:05 85 阅读
在Django里面运行非项目文件

2024-01-27 06:04:05 82 阅读
SSD基本架构与工作原理

2024-01-27 06:04:05 87 阅读
在誉天学习完HCIE就业吗？

2024-01-27 06:04:05 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-01-27 06:04:05 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-01-27 06:04:05 85 阅读
go 协程池的实现

2024-01-27 06:04:05 88 阅读
Shell脚本循环语句与函数

2024-01-27 06:04:05 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-01-27 06:04:05 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-01-27 06:04:05 85 阅读
四大引用——强软弱虚

2024-01-27 06:04:05 86 阅读
Python语言-面向对象

2024-01-27 06:04:05 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-01-27 06:04:05 85 阅读
网站安全-CDN篇

2024-01-27 06:04:05 88 阅读

热门阅读

python 调用SumatraPDF 静默打印PDF

2024-01-27 06:04:05 54 阅读
自然语言处理-文本标注

2024-01-27 06:04:05 66 阅读
自然语言处理-文本对分类或回归

2024-01-27 06:04:05 48 阅读
人工智能的未来展望：自然语言处理（NLP）与计算机视觉（CV）

2024-01-27 06:04:05 50 阅读
【RA6M3 HMI Board线下培训笔记】 RT Thread实现物联网应用 ETH+MQTT+LVGL+RTOS 实现温湿度监测

2024-01-27 06:04:05 45 阅读
GitHub 开启 2FA 双重身份验证的方法

2024-01-27 06:04:05 54 阅读
《动手学深度学习(PyTorch版)》笔记4.5

2024-01-27 06:04:05 48 阅读
ASP.NET 7 Core Web 读取appsetting.json

2024-01-27 06:04:05 49 阅读
openlayers+vue实现缓冲区

2024-01-27 06:04:05 41 阅读
前端框架 - htmx

2024-01-27 06:04:05 43 阅读
单调栈第二天(还没写完)

2024-01-27 06:04:05 53 阅读
SpringBoot获取用户的ip地址信息

2024-01-27 06:04:05 61 阅读
使用PHP自定义一个加密算法，实现编码配合加密，将自己姓名的明文加密一下

2024-01-27 06:04:05 48 阅读
SQL - 数据定义语句

2024-01-27 06:04:05 49 阅读
Git初识

2024-01-27 06:04:05 55 阅读
升级Apache 2.4.25为2.4.58

2024-01-27 06:04:05 55 阅读
8.6跳跃游戏②（LC45-M）

2024-01-27 06:04:05 44 阅读
黑客（网络安全）技术速成自学

2024-01-27 06:04:05 45 阅读
掼蛋的精髓

2024-01-27 06:04:05 51 阅读
2024年1月29日晨会汇报

2024-01-27 06:04:05 49 阅读
数位dp，HDU 4151 The Special Number

2024-01-27 06:04:05 47 阅读
达梦表空间不足解决办法

2024-01-27 06:04:05 60 阅读
代码随想录day24

2024-01-27 06:04:05 37 阅读
爬虫(一)

2024-01-27 06:04:05 44 阅读
前端学习-0125

2024-01-27 06:04:05 34 阅读
Zabbix交换分区使用率过高排查

2024-01-27 06:04:05 57 阅读
mac端压缩图片的软件有哪些？6款超强压缩图片软件

2024-01-27 06:04:05 48 阅读
前端小白入门试题——附答案

2024-01-27 06:04:05 46 阅读
前端学习：HTTP协议、请求响应、分层解耦

2024-01-27 06:04:05 45 阅读
RabbitMQ基础

2024-01-27 06:04:05 40 阅读