『大模型笔记』常见的分布式并行策略(分布式训练)
- 开发
- 39
-
一. 为什么分布式训练越来越流行
- 近年来,深度学习被广泛应用到各个领域,包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中,一个共同的特点就是 模型规模越来越大,比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80 GB 的 A100,那么完整训练 GPT-3 的时长都需要1个月。
- 模型规模的扩大,对硬件(算力、内存)的发展提出要求。然而,因为
原文地址:https://blog.csdn.net/abc13526222160/article/details/137077751
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。
本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:https://www.suanlizi.com/kf/1773097180530348032.html
如若内容造成侵权/违法违规/事实不符,请联系《酸梨子》网邮箱:1419361763@qq.com进行投诉反馈,一经查实,立即删除!