05. 深入理解 GPT 架构

2024-01-11 10:22:01
开发
31

在本章的前面，我们提到了类 GPT 模型、GPT-3 和 ChatGPT 等术语。现在让我们仔细看看一般的 GPT 架构。首先，GPT 代表生成式预训练转换器，最初是在以下论文中引入的：

通过生成式预训练提高语言理解（2018）作者：Radford 等人，来自 OpenAI，http://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

GPT-3 是该模型的放大版本，具有更多参数并在更大的数据集上进行训练。最初的 ChatGPT 模型是通过使用 OpenAI 的 InstructGPT 论文中的方法在大型指令数据集上微调 GPT-3 而创建的，我们将在第 8 章“使用人类反馈进行微调以遵循指令”中更详细地介绍。正如我们在前面的图 1.6 中看到的，这些模型是称职的文本完成模型，可以执行其他任务，例如拼写更正、分类或语言翻译。这实际上非常了不起，因为 GPT 模型是在相对简单的下一个单词预测任务上预训练的，如图 1.7 所示。

图 1.7 在 GPT 模型的下一个单词预训练任务中，系统通过查看前面的单词来学习预测句子中即将到来的单词。这种方法有助于模型理解单词和短语在语言中通常如何组合在一起，从而形成可应用于各种其他任务的基础。

下一个单词预测任务是自我监督学习的一种形式，是自我标记的一种形式。这意味着我们不需要显式收集训练数据的标签，但可以利用

原文地址:https://blog.csdn.net/cq20110310/article/details/135504679 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1745269802508881920.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部