Learning to summarize from human feedback

Abstract

  • 人工参考总结以及 ROUGE 指标只是我们真实关心的目标(总结质量)的粗略代表。
  • 通过优化人工偏好来显著提升总结质量
  • 使用大量高质量的人类比较来训练一个模型来预测人类偏好的总结
  • 使用这个模型作为奖励函数对总结策略进行强化学习微调
  • 我们模型的效果在 TL;DR 数据集上显著超过了人工参考总结和仅使用有监督微调但大的多的模型,并且能够泛化到 CNN/DM 上得到和人工参考相当的效果而不需任何专门的微调

2 Related work

我们的工作与 Ziegler et al., 2019 的工作非常相似,他们也是训练 Transformer 模型来优化人工反馈。

  • 与我们不同的是,他们是以在线方式训练并且发现得到的模型是高度抽取式的。
  • 和他们相比,我们使用了更大的模型以批量化的方式收集人类反馈,并且做了一些算法上的修改
    • 例如分开策略和价值网络(separating the policy and value networks)。

人工偏好也在其他领域被作为奖励信号来训练模型,例如<

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-03-23 11:40:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-23 11:40:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-23 11:40:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-23 11:40:02       18 阅读

热门阅读

  1. 红黑树(Red-Black Tree)

    2024-03-23 11:40:02       19 阅读
  2. linux docker镜像初始化

    2024-03-23 11:40:02       22 阅读
  3. THINKPHP仿Word 统计字数的方法

    2024-03-23 11:40:02       17 阅读
  4. Go使用Terraform 库

    2024-03-23 11:40:02       20 阅读
  5. tcp/ip中的粘包问题的处理逻辑

    2024-03-23 11:40:02       19 阅读
  6. 质量模型、软件测试流程和测试用例

    2024-03-23 11:40:02       23 阅读
  7. 代码随想录算法训练营 Day27 回溯算法3

    2024-03-23 11:40:02       19 阅读
  8. Python从入门到精通秘籍十六

    2024-03-23 11:40:02       16 阅读
  9. 100个python代码(三)

    2024-03-23 11:40:02       15 阅读
  10. Linux 系统中 OpenCV-Python 编程环境

    2024-03-23 11:40:02       21 阅读