Fine-Tuning Language Models from Human Preferences

Abstract

奖励学习(reward learning)可以将强化学习(RL)应用到由人类判断定义奖励的任务中,通过询问人类问题来构建奖励模型。奖励学习的大部分工作使用了模拟环境,但是关于价值的复杂信息经常是以自然语言的形式表达的。我们相信语言奖励学习是使强化学习在现实世界任务中实用且安全的关键。在本文中,我们基于语言模型生成式预训练方面的进展,将奖励学习应用于四种自然语言任务:

  • continuing text with positive sentiment or physically descriptive language
  • summarization tasks on the TL;DR and CNN/Daily Mail datasets.

对于风格延续(stylistic continuation)任务,我们仅使用人类评估的 5,000 个比较就取得了良好的结果。
对于 summarization 任务,只使用 60,000 个比较训练的模型可以从输入中复制整个句子但跳过不相关的序言。
根据人类标注者的评估,这带来了合理的 ROUGE 分数和非常好的性能,但可能是利用了标注者依赖简单启发法这一事实。

1. Introduction

我们希望将强化学习应用于仅由人类判断定义的复杂任务,在这些任务中我们只能通过询问人类来判断结果是好还是坏。为了实现这个目标,我们首先利用人类标注来训练一个 reward model, 然后优化该模型。通过与人类的交互来学习这种模型已有很长的历史,但最近才被用于现代深度学习,而且只被用于相对简单的模拟环境 (

相关推荐

  1. bash find: get directory of found file

    2023-12-31 12:46:02       13 阅读
  2. File

    2023-12-31 12:46:02       37 阅读
  3. Linux Find

    2023-12-31 12:46:02       35 阅读
  4. Union-Find

    2023-12-31 12:46:02       43 阅读
  5. file 文件

    2023-12-31 12:46:02       15 阅读
  6. c# File.WriteAllLines 和 File.WriteAllText

    2023-12-31 12:46:02       32 阅读
  7. grep binary file matches on text file

    2023-12-31 12:46:02       8 阅读
  8. [cmake] --- find_package

    2023-12-31 12:46:02       28 阅读

最近更新

  1. TCP协议是安全的吗?

    2023-12-31 12:46:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-31 12:46:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-31 12:46:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-31 12:46:02       20 阅读

热门阅读

  1. 【读书笔记】网空态势感知理论与模型(四)

    2023-12-31 12:46:02       30 阅读
  2. 12 简历错误以及如何避免这些错误

    2023-12-31 12:46:02       36 阅读
  3. C++ enum class 如何使用

    2023-12-31 12:46:02       33 阅读