大语言模型诞生过程剖析

2024-07-15 15:14:02
开发
19

过程图如下

📚 第一步：海量文本的无监督学习得到基座大模型🎉

🔍 原料：首先，我们需要海量的文本数据，这些数据可以来自互联网上的各种语料库，包括书籍、新闻、科学论文、社交媒体帖子等等。这些文本将作为模型的“原料”，供模型学习。

🎯 目标：通过无监督学习，让模型能够基于上下文预测下一个token。这里用到了Transformer技术，它可以根据上下文预测被掩码的token。

💡 技术过程：无监督学习让模型在没有标签的数据上进行训练，通过比较正确答案和模型的预测结果，计算交叉熵损失，并使用优化算法更新模型的权重。随着见过的文本越来越多，模型生成的能力也会越来越好。

🔧 第二步：有监督微调➡️得到可以对话的大模型🎉

🔍 原料：虽然基座模型已经能够根据上下文生成文本，但它并不擅长对话。为了解决这个问题，我们需要使用人类撰写的高质量对话数据对基座模型进行有监督微调。

🎯 目标：通过微调，让模型更加适应对话任务，具备更好的对话能力。

💡 过程：微调的成本相对较低，因为需要的训练数据规模更小，训练时长更短。在这一阶段，模型从人类高质量的对话中学习如何回答问题，这个过程被称为监督微调（supervised fine tuning）。

思考：为啥是“微调”而不叫“中调”或者“大调”？

因为相比于基座模型所用到的巨量数据，这个过程里的大部分有监督学习，其所用到的数据，都像是冰山之一角，九牛之一毛！

🏆 第三步：奖励模型的训练➡️得到可以评价回答的模型🎉

🔍 原料：为了让模型的回答更加优质且符合人类道德与价值观，我们需要让模型一次性给出多个回答结果，并由人工对这些回答结果进行打分和排序。

🎯 目标：基于这些以评分作为标签的训练数据，训练出一个能对回答进行评分预测的奖励模型。

💡 过程：奖励模型能够对模型的回答进行评分，从而引导模型生成更符合人类期望的回答。这个过程也常被称为对齐（alignment）。

🎈 第四步：强化学习训练➡️得到更符合人类价值观的优秀模型🎉

🔍 原料：使用第二步得到的模型和第三步的奖励模型进行强化学习训练。

🎯 目标：让模型的回答不断被奖励模型评价，并通过优化策略获取更高的评分，从而改进自身的结构。

💡 过程：强化学习训练利用奖励模型的评分作为反馈信号，引导模型生成更高质量的回答。同时，C端用户的点赞或倒赞也为模型的升级提供了宝贵的评价数据

接下来我们用LLM来讲解。第一步：通过无监督学习得到基座大模型

第二步：通过监督学习得到微调后的基座大模型

第三步：通过人工评价和有监督学习得到评价模型

第四步：通过强化学习不断提升模型回复质量

原文地址:https://blog.csdn.net/weixin_74923758/article/details/140421786 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1812747433625653248.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

大语言模型诞生过程剖析

2024-07-15 15:14:02 20 阅读
大语言模型的构建过程

2024-07-15 15:14:02 28 阅读
大模型之一：大语言模型预训练的过程

2024-07-15 15:14:02 31 阅读
LLM大语言模型研究方向总结剖析

2024-07-15 15:14:02 22 阅读
大语言模型LLM中Transformer模型的调用过程与步骤

2024-07-15 15:14:02 43 阅读
C语言内存模型的深度剖析

2024-07-15 15:14:02 48 阅读
大模型学习过程记录

2024-07-15 15:14:02 27 阅读
从汇编来角度剖析C语言函数调用过程

2024-07-15 15:14:02 29 阅读
国产Sora诞生！清华团队发布Vidu大模型，可直接生成16秒视频

2024-07-15 15:14:02 31 阅读
大语言模型微调过程中的 RLHF 和 RLAIF 有什么区别？

2024-07-15 15:14:02 35 阅读

最近更新

题解 - 序列

2024-07-15 15:14:02 90 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-15 15:14:02 77 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-15 15:14:02 70 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-15 15:14:02 74 阅读
NoSQL之Redis非关系型数据库

2024-07-15 15:14:02 77 阅读
2024.7.22 作业

2024-07-15 15:14:02 77 阅读
GDB调试正在运行的程序

2024-07-15 15:14:02 62 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-15 15:14:02 62 阅读
在Django里面运行非项目文件

2024-07-15 15:14:02 62 阅读
SSD基本架构与工作原理

2024-07-15 15:14:02 67 阅读
在誉天学习完HCIE就业吗？

2024-07-15 15:14:02 75 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-15 15:14:02 65 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-15 15:14:02 67 阅读
go 协程池的实现

2024-07-15 15:14:02 68 阅读
Shell脚本循环语句与函数

2024-07-15 15:14:02 68 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-15 15:14:02 72 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-15 15:14:02 67 阅读
四大引用——强软弱虚

2024-07-15 15:14:02 70 阅读
Python语言-面向对象

2024-07-15 15:14:02 72 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-15 15:14:02 66 阅读
网站安全-CDN篇

2024-07-15 15:14:02 67 阅读