大模型之一：大语言模型预训练的过程

2024-04-14 09:20:03
开发
12

介绍

大语言模型的一般训练过程（3步）：1、预训练学知识，2、指令微调学格式，3、强化学习对齐人类偏好

预训练

所以要想大模型有领域知识，得增量预训练（靠指令微调记知识不靠谱，不是几十w条数据能做到的）

1. 准备工作

准备基座模型->收集数据->数据清洗

2. 增量预训练所用训练框架

超大规模训练：选用 3D 并行，Megatron-Deepspeed拥有多个成功案例
少量节点训练：选用张量并行，但张量并行只有在 nvlink 环境下才会起正向作用，但提升也不会太明显。
少量卡训练：如果资源特别少，显存怎么也不够，可以使用 LoRA 进行增量预训练。

3. 增量预训练

先用大规模通用语料预训练，再用小规模领域语料二次训练
直接进行大规模领域语料预训练
通用语料比例混合领域语料同时训练

4. 流程

数据预处理：参考 LLaMA 的预训练长度，也把数据处理成2048长度（如果不够，做补全）。
分词器：如果使用 LLaMA 可能需要添加中文词表，目前有不少人做了相关工作，当然也可以自己添加自己需要的词表。
原始模型：各家框架的模型层名不太一样，训练时可能需要做一些调整，在预训练时尽量选择基座模型，不选 Chat 模型。
训练模型：跑通只是第一步，根据训练情况反复调整比较重要。
模型转换：不同框架的checkpoint格式不同，还会根据并行度分成很多个文件。
模型测试：简单测试下续写能力，验证下模型是否正常。

原文地址:https://blog.csdn.net/qq_24211837/article/details/137726018 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1779318667062939648.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

大模型之一：大语言模型预训练的过程

介绍

预训练

1. 准备工作

2. 增量预训练所用训练框架

3. 增量预训练

4. 流程

相关推荐

最近更新

热门阅读