05. 深入理解 GPT 架构

在本章的前面,我们提到了类 GPT 模型、GPT-3 和 ChatGPT 等术语。现在让我们仔细看看一般的 GPT 架构。首先,GPT 代表生成式预训练转换器,最初是在以下论文中引入的:

通过生成式预训练提高语言理解 (2018) 作者:Radford 等人,来自 OpenAI,http://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

GPT-3 是该模型的放大版本,具有更多参数并在更大的数据集上进行训练。最初的 ChatGPT 模型是通过使用 OpenAI 的 InstructGPT 论文中的方法在大型指令数据集上微调 GPT-3 而创建的,我们将在第 8 章“使用人类反馈进行微调以遵循指令”中更详细地介绍。正如我们在前面的图 1.6 中看到的,这些模型是称职的文本完成模型,可以执行其他任务,例如拼写更正、分类或语言翻译。这实际上非常了不起,因为 GPT 模型是在相对简单的下一个单词预测任务上预训练的,如图 1.7 所示。

图 1.7 在 GPT 模型的下一个单词预训练任务中,系统通过查看前面的单词来学习预测句子中即将到来的单词。这种方法有助于模型理解单词和短语在语言中通常如何组合在一起,从而形成可应用于各种其他任务的基础。

下一个单词预测任务是自我监督学习的一种形式,是自我标记的一种形式。这意味着我们不需要显式收集训练数据的标签,但可以利用

相关推荐

  1. 深入理解Apache Kafka Topic:架构设计与应用场景

    2024-01-11 10:22:01       17 阅读
  2. 深入理解Transformer架构的编码器-解码器结构

    2024-01-11 10:22:01       24 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-11 10:22:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-11 10:22:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-11 10:22:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-11 10:22:01       18 阅读

热门阅读

  1. Mybatis多表查询

    2024-01-11 10:22:01       34 阅读
  2. 面试算法109:开密码锁

    2024-01-11 10:22:01       35 阅读
  3. 代码随想录算法训练营——数组篇总结

    2024-01-11 10:22:01       30 阅读
  4. 【SEO优化】之html语义化标签

    2024-01-11 10:22:01       40 阅读
  5. Leetcode17-好数对的数目(1512)

    2024-01-11 10:22:01       34 阅读
  6. 【水文】判断质数

    2024-01-11 10:22:01       36 阅读
  7. C++获取内存使用情况

    2024-01-11 10:22:01       34 阅读
  8. 探索 Flutter 的 Provider:介绍与用法

    2024-01-11 10:22:01       26 阅读
  9. windows或mac端口转发

    2024-01-11 10:22:01       39 阅读