「深度解析」ChatGPT2:无监督多任务学习的语言模型(2019)

论文总结

以下是我阅读完整篇论文做的个人总结,包含了ChatGPT-2文章的主要内容,可以仅看【论文总结】章节。

数据集

自制了一个网页爬虫,被抓取的网页部分来自于社交平台,这些网页由人工进行过滤。最终生成
WebText数据集
,包含45000000个链接。另一部分来自于新闻网站,数据截止2017年12月,数据总量达到8000000篇文章,总共有40GB的文本内容。文章还提到,包括wiki百科等文本也纳入训练数据集,由
全世界各地数百万人参与
来创建和清洗GPT-2训练所用的数据集。

输入表示

设计了一种
结合单词级表示和字节级表示的混合输入表示
。针对过去的单词级库去除大量重复单词,又引入字节级表示来提升泛化能力。

单词级表示具有先验优势,字节级表示具有泛化优势。

模型

针对GPT1进行了部分修改:

1.将层归一化移动到每个子块的输入。

2.在自注意块之后添加额外的层归一化。

3.改进了初始化方法(初始化时将残差层的权重按1/√N的倍数扩大,N是残差层数量)。

4.词典扩大,分词扩大,指令集扩大,批处理大小扩大。

5.GPT包含117000000参数,
GPT-2包含1542000000参数

实验

因为只训练一次,却想观察模型在各个细分领域的表现,因此所有实验都可归类为
零次学习(zero-shot)

测试项目 测试模型的哪方面能力 测试结果
儿童书籍 识别不同类型的词汇 ACC从85.7提升至93.3
LAMBADA测试 识别文本中长依赖的能力 PPL99.8降低至8.63
Winograd Schema Challenge 常识性推理 63.7%提升至70.7%
阅读理解 需要模型具有一定记忆能力 4项测试3项刷新历史记录
摘要 对新闻文章提取摘要的能力 与历史成绩持平
翻译 大模型自动学习的翻译能力 英译法较差,法译英达到基准水平
问答 模型对于似是而非问题回答正确的能力 准确度提升5.3倍
总结

GPT-2论文的核心内容,可以用一句话进行总结:那就是
在GPT模型的基础上,作者提升了模型大小和训练数据集大小,结果发现GPT-2可以自动适应并完成NLP不同领域的任务目标的学习

举个例子来说,我们同时给一个固定的语言模型输入日常对话文本和新闻报道文本的数据集,并且这个数据集足够大、模型足够大、训练时间足够长。则最终产出的模型将会拥有区分日常对话和新闻报道的不同场景的能力,不仅如此模型还将自动拥有一些新的能力,例如编写新闻摘要的能力。

这意味着大型语言模型具有很强的泛化能力,同时也意味着
大型语言模型将会具有潜在自主意识
。随后本文针对作者列举的几个独立领域,陈述了实验结果。

相比于GPT论文中只提到Large Dataset,GPT-2论文中开始出现LLM(Large Language Model)的描述。


论文原文解读

原论文地址:https://cdn.openai.com/better-language-models/language_models_are_uns

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-10 20:42:04       5 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-10 20:42:04       5 阅读
  3. 在Django里面运行非项目文件

    2024-07-10 20:42:04       4 阅读
  4. Python语言-面向对象

    2024-07-10 20:42:04       7 阅读

热门阅读

  1. 数据中台真的适合你的企业吗?

    2024-07-10 20:42:04       9 阅读
  2. [AIGC] ClickHouse的表引擎介绍

    2024-07-10 20:42:04       13 阅读
  3. go 函数

    2024-07-10 20:42:04       11 阅读
  4. 玩转springboot之springboot项目监测

    2024-07-10 20:42:04       10 阅读
  5. 【LeetCode】每日一题:跳跃游戏 II

    2024-07-10 20:42:04       10 阅读
  6. Python面试题: 如何在 Python 中实现一个线程池?

    2024-07-10 20:42:04       13 阅读
  7. js时间转成xx前

    2024-07-10 20:42:04       10 阅读
  8. stm32基本定时器

    2024-07-10 20:42:04       9 阅读
  9. Kithara常见问题解答

    2024-07-10 20:42:04       9 阅读
  10. 数学,LeetCode 3102. 最小化曼哈顿距离

    2024-07-10 20:42:04       11 阅读
  11. Linux C++ 044-设计模式简介

    2024-07-10 20:42:04       13 阅读