Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

本文是LLM系列文章,针对《Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing》的翻译。

摘要

尽管大型语言模型(LLM)在各种任务上具有令人印象深刻的功能,但它们仍然难以处理涉及复杂推理和规划的场景。最近的工作提出了先进的提示技术和利用高质量数据进行微调的必要性,以增强LLM的推理能力。然而,这些方法本身就受到数据可用性和质量的限制。有鉴于此,自我纠正和自我学习成为可行的解决方案,采用策略使LLM能够完善其产出并从自我评估的奖励中学习。然而,LLM在自我完善反应方面的功效,特别是在复杂的推理和规划任务中,仍然令人怀疑。在本文中,我们引入了ALPHALM来进行LLM的自改进,它将蒙特卡罗树搜索(MCTS)与LLM相结合ÿ

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-01 20:34:01       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-01 20:34:01       106 阅读
  3. 在Django里面运行非项目文件

    2024-05-01 20:34:01       87 阅读
  4. Python语言-面向对象

    2024-05-01 20:34:01       96 阅读

热门阅读

  1. CSS_sass模块化、scss模块化

    2024-05-01 20:34:01       31 阅读
  2. GPT每日面试题—csrf攻击的原理和解决方案

    2024-05-01 20:34:01       34 阅读
  3. yarn的安装与使用:提升前端开发效率的利器

    2024-05-01 20:34:01       33 阅读
  4. QT登录界面,(页面的切换)

    2024-05-01 20:34:01       33 阅读
  5. 利用Python实现Smithwaterman算法

    2024-05-01 20:34:01       35 阅读