Learning to summarize from human feedback

2024-03-23 11:40:02
开发
17

Abstract

人工参考总结以及 ROUGE 指标只是我们真实关心的目标（总结质量）的粗略代表。
通过优化人工偏好来显著提升总结质量
使用大量高质量的人类比较来训练一个模型来预测人类偏好的总结
使用这个模型作为奖励函数对总结策略进行强化学习微调
我们模型的效果在 TL;DR 数据集上显著超过了人工参考总结和仅使用有监督微调但大的多的模型，并且能够泛化到 CNN/DM 上得到和人工参考相当的效果而不需任何专门的微调

2 Related work

我们的工作与 Ziegler et al., 2019 的工作非常相似，他们也是训练 Transformer 模型来优化人工反馈。

与我们不同的是，他们是以在线方式训练并且发现得到的模型是高度抽取式的。
和他们相比，我们使用了更大的模型，以批量化的方式收集人类反馈，并且做了一些算法上的修改
- 例如分开策略和价值网络（separating the policy and value networks）。

人工偏好也在其他领域被作为奖励信号来训练模型，例如<

原文地址:https://blog.csdn.net/chansonzhang/article/details/134716499 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1771381361127591936.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部