【LLM-推理】Self-Refine:使用feedback迭代修正LLM的Output

来源: https://selfrefine.info/

1.论文速读(摘要+引言)

本文主要提出了Self-Refine策略,旨在通过一个LLM不断refine修正LLM的输出,使其在无需额外训练的情况下,在下游任务产生更好的效果。

该方法的直观Insight:我们在写一封 email 时,往往写出一个 draft,然后再修改其中措辞不当的地方,修改为更好的版本。
其思路如下图:
请添加图片描述

  • 首先,给定一个 input x,在 prompt pgen下让 LLM 先生成一个初始 outputy0
  • ​进行迭代,每一轮 t 中:
    • Feedback:input x、上一轮 output y(t)prompt p(fb)给 LLM,得到这一轮的 feedback f(bt)【feedback的prompt】
    • Refine:input x历史的所有 feedbackoutputprompt P(refine) 给 LLM,得到这一轮的 output T(t+1)。【refine重新优化的prompt】

​如此迭代,直到 feedback 中被检查出有stop标识符,或者达到了最大迭代次数。

2.方法 method

给定输入,self-refine生成最初的输出,根据该输出提出反馈,然后根据反馈优化输出。直到得到满意的答案。self-refine依靠LLM和三个prompts(生成输出的Prompt,生成反馈的Prompt,根据反馈优化输出的优化Prompt)
在这里插入图片描述

3.评估

主要在这几个任务进行评估:

对话生成
代码优化
代码可读性提升 数学推理
反转情绪
缩写词生成
限制性生成
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Metrics指标效果:
Math reasoning %解决率code optimization:% 代码优化率Acronym Generation:%受限生成
在这里插入图片描述

相关推荐

  1. LLM: Prompt使用

    2024-07-21 10:24:01       35 阅读
  2. 使用

    2024-07-21 10:24:01       23 阅读
  3. 大模型(LLM推理加速

    2024-07-21 10:24:01       26 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-21 10:24:01       52 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-21 10:24:01       54 阅读
  3. 在Django里面运行非项目文件

    2024-07-21 10:24:01       45 阅读
  4. Python语言-面向对象

    2024-07-21 10:24:01       55 阅读

热门阅读

  1. CyclicBarrier循环栅栏介绍和使用

    2024-07-21 10:24:01       13 阅读
  2. Python常用的数据类型

    2024-07-21 10:24:01       12 阅读
  3. Android笔试面试题AI答之控件Views(1)

    2024-07-21 10:24:01       15 阅读
  4. 【音视频】音频重采样

    2024-07-21 10:24:01       17 阅读
  5. IEEE论文发布

    2024-07-21 10:24:01       20 阅读
  6. 【CSS】基本用法

    2024-07-21 10:24:01       16 阅读
  7. 塔子哥的循环序号-美团2023笔试(codefun2000)

    2024-07-21 10:24:01       16 阅读
  8. sqlalchemy事件监听

    2024-07-21 10:24:01       14 阅读
  9. Nuxt.js与Serverless:构建无服务器应用

    2024-07-21 10:24:01       15 阅读