学习记录--GPT

2024-07-19 11:30:05
开发
19

目录

2：transformer对叠层

1：预训练阶段

2：下游任务精调阶段（微调）

总体结构

1：输入层

Tokenization：文本输入首先经过分词处理，将文本转换为Token序列。这通常涉及将文本分割成单词、子词或其他基本单位。

Embedding：分词后的Token序列通过Embedding层转换为固定维度的向量表示。Embedding层将每个Token映射到一个高维空间中，捕捉其语义信息。

2：transformer对叠层

GPT的核心是多个Transformer解码器的堆叠。每个解码器都包含以下几个关键组件：

自注意力机制：自注意力机制允许模型在处理序列时关注不同位置的Token。通过计算Token之间的注意力权重，模型能够捕捉输入序列中的依赖关系，并为每个位置生成上下文相关的表示。

前馈神经网络：除了自注意力机制外，每个解码器还包含一个前馈神经网络。该网络对自注意力机制的输出进行进一步转换，以提取更高级别的特征。

残差连接和层归一化：为了提高模型的训练稳定性和效果，每个解码器都使用了残差连接和层归一化。这些技术有助于缓解梯度消失和梯度爆炸问题，并加速模型的收敛。

3：输出层

经过多个Transformer解码器堆叠处理后，最后一层的输出被用作生成文本的依据。对于每个位置，模型预测下一个Token的概率分布。这通常通过一个线性层和一个Softmax激活函数来实现，将解码器的输出转换为概率值。

中间核心就是12个Decoder（准确来说不是，只是类似而已，用Encoder也是可以实现的）

1：预训练阶段

在预训练阶段，模型使用大规模的无标注文本数据进行训练，以学习语言的统计规律和生成能力。通过自回归的方式，模型预测输入序列中的下一个Token，并最大化在训练数据上的似然性。7-2,7-3,7-4三个式子对应之前的GPT结构图，输出P(x)为输出，每个词被预测到的概率，再利用7-1式，计算最大似然函数，据此构造损失函数，即可以对该语言模型进行优化。

2：下游任务精调阶段（微调）

模型使用特定任务的标注数据进行训练，以适应各种NLP任务。通过在模型的顶部添加适当的输出层，并使用任务特定的目标函数进行训练，模型能够学习将输入文本映射到特定任务的输出空间

参考：

GPT模型总结【模型结构及计算过程_详细说明】_gpt结构-CSDN博客

神经网络算法：一文搞懂GPT（Generative Pre-trained Transformer）-CSDN博客

原文地址:https://blog.csdn.net/qq_43728463/article/details/140540864 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1814140626938236928.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

学习记录--GPT

2024-07-19 11:30:05 20 阅读
GMT学习记录

2024-07-19 11:30:05 54 阅读
Git学习记录

2024-07-19 11:30:05 38 阅读
GIT学习记录

2024-07-19 11:30:05 34 阅读
Git学习记录

2024-07-19 11:30:05 24 阅读
BERT、GPT学习问题个人记录

2024-07-19 11:30:05 55 阅读
关于个人Git学习记录及相关

2024-07-19 11:30:05 56 阅读
Git学习记录v1.0

2024-07-19 11:30:05 25 阅读
【学习记录25】学习一些比较有用的git命令

2024-07-19 11:30:05 49 阅读
$基于<span style='color:red;'>Git</span>的代码工程管理——<span style='color:red;'>学习</span><span style='color:red;'>记录</span>一$

基于Git的代码工程管理——学习记录一

2024-07-19 11:30:05 53 阅读

最近更新

题解 - 序列

2024-07-19 11:30:05 86 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-19 11:30:05 72 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-19 11:30:05 67 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-19 11:30:05 71 阅读
NoSQL之Redis非关系型数据库

2024-07-19 11:30:05 74 阅读
2024.7.22 作业

2024-07-19 11:30:05 74 阅读
GDB调试正在运行的程序

2024-07-19 11:30:05 59 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-19 11:30:05 60 阅读
在Django里面运行非项目文件

2024-07-19 11:30:05 58 阅读
SSD基本架构与工作原理

2024-07-19 11:30:05 64 阅读
在誉天学习完HCIE就业吗？

2024-07-19 11:30:05 71 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-19 11:30:05 61 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-19 11:30:05 65 阅读
go 协程池的实现

2024-07-19 11:30:05 64 阅读
Shell脚本循环语句与函数

2024-07-19 11:30:05 66 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-19 11:30:05 70 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-19 11:30:05 62 阅读
四大引用——强软弱虚

2024-07-19 11:30:05 67 阅读
Python语言-面向对象

2024-07-19 11:30:05 69 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-19 11:30:05 64 阅读
网站安全-CDN篇

2024-07-19 11:30:05 64 阅读