本文是LLM系列文章,针对《Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing》的翻译。
从想象、探索、批判看LLM的自我完善
摘要
尽管大型语言模型(LLM)在各种任务上具有令人印象深刻的功能,但它们仍然难以处理涉及复杂推理和规划的场景。最近的工作提出了先进的提示技术和利用高质量数据进行微调的必要性,以增强LLM的推理能力。然而,这些方法本身就受到数据可用性和质量的限制。有鉴于此,自我纠正和自我学习成为可行的解决方案,采用策略使LLM能够完善其产出并从自我评估的奖励中学习。然而,LLM在自我完善反应方面的功效,特别是在复杂的推理和规划任务中,仍然令人怀疑。在本文中,我们引入了ALPHALM来进行LLM的自改进,它将蒙特卡罗树搜索(MCTS)与LLM相结合ÿ