GPT-3: Language Models are Few-Shot Learners

GPT-3

数据集

  • CommonCrawl:文章通过高质量参考语料库对CommonCrawl数据集进行了过滤,并通过模糊去重对文档进行去重,且增加了高质量参考语料库以增加文本的多样性。
  • WebText:文章采用了类似GPT-2中的WebText文档收集清洗方法获得了更大范围的网页数据。
  • Books Corpora:此外文章增加了两个来自网络的书籍语料库。
  • Wiki:增加了英语百科语料库。

方法

  • 模型架构基本延续GPT-2的基于Transformer的网络架构。相比于GPT-2做了如下改变:

    • GPT-3采用了96层的多头transformer,头的个数为 96
    • 词向量的长度是12888
    • 上下文划窗的窗口大小提升至 2048个token
    • 在此基础上增加了Sparse-Transformer,即每次计算注意力的时候并不计算当前词与句子中所有词的注意力,而是通过Sparse Matrix仅仅计算当前词与句子中其它部分单词的注意力
  • In-context Learning

    • 关键思想是从类比中学习,首先,ICL 需要一些示例来形成一个演示上下文。这些示例通常是用自然语言模板编写的。然后 ICL 将查询的问题(即你需要预测标签的 input)和一个上下文演示(一些相关的 cases)连接在一起,形成带有提示的输入,并将其输入到语言模型中进行预测。 值得注意的是,与需要使用反向梯度更新模型参数的训练阶段的监督学习不同,ICL 不需要参数更新,并直接对预先训练好的语言模型进行预测。
      在这里插入图片描述
引用

相关推荐

  1. <span style='color:red;'>GPT</span>-<span style='color:red;'>3</span>

    GPT-3

    2023-12-30 05:18:06      11 阅读
  2. GPT3年终总结

    2023-12-30 05:18:06       29 阅读

最近更新

  1. TCP协议是安全的吗?

    2023-12-30 05:18:06       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-30 05:18:06       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-30 05:18:06       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-30 05:18:06       18 阅读

热门阅读

  1. 举例说明自然语言(NLP)技术

    2023-12-30 05:18:06       33 阅读
  2. 基于vim的开发编辑器配置

    2023-12-30 05:18:06       33 阅读
  3. 【网络基础】网络基础知识(学习笔记)

    2023-12-30 05:18:06       38 阅读
  4. 举例说明自然语言处理(NLP)技术

    2023-12-30 05:18:06       32 阅读
  5. Serverless架构学习路线及平台对比

    2023-12-30 05:18:06       34 阅读
  6. 创建第一个electron项目

    2023-12-30 05:18:06       34 阅读
  7. test ui-01-UI 测试组件之 Selenium 入门介绍

    2023-12-30 05:18:06       35 阅读
  8. 项目记录:RabbitMq+Redis配置消息队列

    2023-12-30 05:18:06       30 阅读