AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.02.01-2024.02.05

LLMs论文速览：2024.02.01-2024.02.05：

1.A Survey on Data Selection for LLM Instruction Tuning

标题:LLM 指令调整数据选择调查

author:Jiahao Wang, Bolin Zhang, Qianlong Du, Jiajun Zhang, Dianhui Chu

date Time：2024-02-04

paper pdf：http://arxiv.org/pdf/2402.05123v1

摘要：
指令调整是训练大型语言模型（LLM）的重要步骤，因此如何提高指令调整的效果受到越来越多的关注。现有研究表明，在 LLM 的指令调整过程中，数据集的质量比数量更为重要。因此，近来很多研究都集中于探索从指令数据集中选择高质量子集的方法，旨在降低训练成本并增强 LLM 的指令跟随能力。本文对用于 LLM 指令调整的数据选择进行了全面研究。首先，我们介绍了常用的指令数据集。然后，我们提出了新的数据选择方法分类法，并详细介绍了最新进展，还详细阐述了数据选择方法的评估策略和结果。最后，我们强调了这一任务所面临的挑战，并提出了新的前沿领域。

2.DeLLMa: A Framework for Decision Making Under Uncertainty with Large Language Models

标题:DeLLMa：利用大型语言模型在不确定情况下进行决策的框架

author:Ollie Liu, Deqing Fu, Dani Yogatama, Willie Neiswanger

date Time：2024-02-04

paper pdf：http://arxiv.org/pdf/2402.02392v1

摘要：
大型语言模型（LLM）在全社会的应用日益广泛，包括商业、工程和医学等领域。这些领域经常要应对不确定性下的决策问题，这是一项关键而又具有挑战性的任务。在本文中，我们发现在这类决策问题上直接提示 LLM 会产生不良结果，尤其是随着问题复杂性的增加。为了克服这一局限性，我们提出了 DeLLMa（决策大型语言模型助手），这是一个旨在提高不确定环境下决策准确性的框架。DeLLMa 包括一个多步骤的脚手架程序，借鉴了决策理论和效用理论的原理，以提供一个最佳的、可由人类审计的决策过程。我们在涉及真实农业和金融数据的决策环境中验证了我们的框架。我们的结果表明，DeLLMa 可以显著提高 LLM 决策性能，与其他竞争方法相比，其准确性最多可提高 40%。

3.KICGPT: Large Language Model with Knowledge in Context for Knowledge Graph Completion

标题:KICGPT：带上下文知识的大型语言模型，用于知识图谱补全

author:Yanbin Wei, Qiushi Huang, James T. Kwok, Yu Zhang

date Time：2024-02-04

paper pdf：http://arxiv.org/pdf/2402.02389v1

摘要：
知识图谱补全（KGC）对于解决知识图谱的不完整性和支持下游应用至关重要。针对 KGC 提出了许多模型。它们可分为两大类：基于三重的方法和基于文本的方法。由于结构信息有限和实体分布不平衡，基于三重的方法很难处理长尾实体。基于文本的方法缓解了这一问题，但需要对语言模型进行昂贵的训练，并对知识图谱进行特定的微调，从而限制了其效率。为了缓解这些限制，我们在本文中提出了 KICGPT，这是一个集成了大型语言模型（LLM）和基于三重的 KGC 检索器的框架。它能在不产生额外训练开销的情况下缓解长尾问题。KICGPT 采用了一种名为 “知识提示”（Knowledge Prompt）的上下文学习策略，它将结构知识编码到演示中，为 LLM 提供指导。在基准数据集上的实证结果表明，KICGPT 在较小的训练开销和无需微调的情况下非常有效。

4.Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models

标题:超越极限：扩展大型语言模型中上下文长度的技术概览

author:Xindi Wang, Mahsa Salmani, Parsa Omidi, Xiangyu Ren, Mehdi Rezagholizadeh, Armaghan Eshaghi

date Time：2024-02-03

paper pdf：http://arxiv.org/pdf/2402.02244v1

摘要：
最近，大型语言模型（LLMs）显示出了非凡的能力，包括理解上下文、进行逻辑推理和生成反应。然而，这是以严格的计算和内存要求为代价的，妨碍了它们有效支持长输入序列的能力。本研究综述了最近为扩展 LLM 的序列长度而设计的技术和方法，从而提高了 LLM 理解长语境的能力。特别是，我们对包括架构修改在内的各种技术进行了回顾和分类，如修改位置编码和改变注意力机制，这些技术旨在增强对较长序列的处理能力，同时避免计算需求的成比例增加。本研究调查的各种方法可在 LLM 的不同阶段（即训练、微调和推理）加以利用。这使得 LLM 能够高效处理扩展序列。最后一节讨论了当前方法的局限性以及对未来研究方向的建议，强调了序列长度对 LLMs 持续发展的重要性。

5.Continual Learning for Large Language Models: A Survey

标题:大型语言模型的持续学习：调查

author:Tongtong Wu, Linhao Luo, Yuan-Fang Li, Shirui Pan, Thuy-Trang Vu, Gholamreza Haffari

date Time：2024-02-02

paper pdf：http://arxiv.org/pdf/2402.01364v2

摘要：
大型语言模型（LLMs）由于规模庞大，训练成本高昂，因此不适合经常重新训练。然而，有必要对 LLM 进行更新，以赋予其新的技能，并使其与快速发展的人类知识保持同步。本文概述了近期有关本地语言学习员持续学习的研究成果。鉴于 LLM 的独特性，我们在一个新颖的多阶段分类方案中对持续学习技术进行了编目，其中包括持续的预训练、指令调整和对齐。我们将 LLM 的持续学习与小型模型中使用的更简单的适应方法以及其他增强策略（如检索增强生成和模型编辑）进行了对比。此外，通过对基准和评估的讨论，我们确定了这一关键任务所面临的若干挑战和未来的工作方向。

6.Can MLLMs Perform Text-to-Image In-Context Learning?

标题:MLLM 能否进行文本到图像的上下文学习？

author:Yuchen Zeng, Wonjun Kang, Yicong Chen, Hyung Il Koo, Kangwook Lee

date Time：2024-02-02

paper pdf：http://arxiv.org/pdf/2402.01293v1

摘要：
从大型语言模型（LLM）到多模态大型语言模型（MLLM）的演变，推动了将上下文学习（ICL）扩展到多模态对应模型的研究。现有的此类研究主要集中于图像到文本的 ICL。然而，文本到图像 ICL（T2I-ICL）因其独特的特点和潜在的应用，仍未得到充分探索。为了填补这一空白，我们正式定义了 T2I-ICL 任务，并提出了首个 T2I-ICL 基准数据集 CoBSAT，其中包括十项任务。利用我们的数据集对六种最先进的 MLLM 进行基准测试，我们发现了 MLLM 在解决 T2I-ICL 时遇到的相当大的困难。我们认为主要挑战在于多模态和图像生成的内在复杂性。为了克服这些挑战，我们探索了微调和思维链提示等策略，并取得了显著的改进。我们的代码和数据集可在（url{https://github.com/UW-Madison-Lee-Lab/CoBSAT}.

7.Exploring the Limitations of Graph Reasoning in Large Language Models

标题:探索大型语言模型中图形推理的局限性

author:Palaash Agrawal, Shavak Vasania, Cheston Tan

date Time：2024-02-02

paper pdf：http://arxiv.org/pdf/2402.01805v1

摘要：
仅通过基于语言的提示，预训练的大型语言模型就展示了各种类型的推理能力。然而，在本文中，我们通过图推理问题测试了 5 种不同 LLM（GPT-4、GPT-3.5、Claude-2、Llama-2 和 Palm-2）的图推理深度。特别是，我们设计了 10 个不同的图遍历问题，每个问题的复杂程度都在增加。此外，我们还分析了模型在不同环境下的性能，如不同大小的图以及不同形式的 k-shot 提示。通过这一基准测试过程，我们强调了 LLM 的各种局限性、偏差和特性，例如与图中每个节点的平均遍历自由度成反比的关系，k-shot 提示对图推理任务的整体负面影响，以及阻止 LLM 识别有效解决方案缺失的正向响应偏差。最后，我们提出了一种专为图遍历任务设计的新提示技术，即 PathCompare，与标准提示和 CoT 相比，该技术显著提高了 LLM 的性能。

8.Towards a Unified Language Model for Knowledge-Intensive Tasks Utilizing External Corpus

标题:利用外部语料库为知识密集型任务建立统一语言模型

author:Xiaoxi Li, Zhicheng Dou, Yujia Zhou, Fangchao Liu

date Time：2024-02-02

paper pdf：http://arxiv.org/pdf/2402.01176v1

摘要：
大型语言模型（LLMs）的出现展示了它们在各个领域的功效，但它们经常会出现幻觉，尤其是在需要外部知识源的知识密集型任务中。为了提高语言模型的事实准确性，检索增强生成（RAG）已成为一种流行的解决方案。然而，传统的检索模块通常依赖于大规模的文档索引，这可能与生成任务脱节。通过生成检索（GR）方法，语言模型可以直接生成相关的文档标识符（DocID），从而实现更优越的检索性能。然而，GR 与下游任务之间的关系以及 LLM 在 GR 中的潜力仍有待探索。在本文中，我们提出了一种统一的语言模型，通过无缝集成生成式检索、闭卷生成和 RAG，利用外部语料库处理各种知识密集型任务。为了通过统一的连续解码过程实现有效的检索和生成，我们引入了以下机制：（1）面向排序的 DocID 解码策略，通过直接从 DocID 排序列表中学习来提高排序能力；（2）连续生成策略，以促进有效和高效的 RAG；（3）精心设计的辅助 DocID 理解任务，以提高模型对 DocID 的理解能力及其与下游任务的相关性。我们在广泛使用的 KILT 基准上使用两种骨干模型变体对我们的方法进行了评估：编码器-解码器 T5 模型和仅解码器的 LLM Llama2。实验结果表明，我们的模型在检索和下游知识密集型任务中均表现出色。

9.LLM-Detector: Improving AI-Generated Chinese Text Detection with Open-Source LLM Instruction Tuning

标题:LLM-Detector：利用开源 LLM 指令调整改进人工智能生成的中文文本检测

author:Rongsheng Wang, Haoming Chen, Ruizhe Zhou, Han Ma, Yaofei Duan, Yanlan Kang, Songhua Yang, Baoyu Fan, Tao Tan

date Time：2024-02-02

paper pdf：http://arxiv.org/pdf/2402.01158v1

摘要：
ChatGPT 和其他通用大型语言模型（LLM）取得了令人瞩目的成就，但也引发了人们对人工智能生成文本滥用的担忧。现有的人工智能生成文本检测模型，如基于 BERT 和 RoBERTa 的模型，容易出现域内过度拟合的问题，导致域外（OOD）检测性能不佳。在本文中，我们首先收集了由人类专家和 9 种 LLM 生成的针对多个领域问题的中文文本回复，并进一步创建了一个混合了人类撰写的句子和 LLM 编辑的句子的数据集。然后，我们提出了 LLM-Detector，这是一种通过对 LLM 进行指令调整来实现文档级和句子级文本检测的新方法。我们的方法利用 LLM 在预训练期间获得的丰富知识，使它们能够检测它们生成的文本。指令调整使模型的响应与用户预期的文本检测任务相一致。实验结果表明，以前的方法在句子级人工智能生成的文本检测和 OOD 检测方面很吃力。相比之下，我们提出的方法不仅在句子级和文档级文本检测方面明显优于基准方法，而且还表现出很强的泛化能力。此外，由于 LLM-Detector 是基于开源 LLM 进行训练的，因此易于定制部署。

10.DTS-SQL: Decomposed Text-to-SQL with Small Large Language Models

标题:DTS-SQL：使用小型大型语言模型的分解文本到 SQL

author:Mohammadreza Pourreza, Davood Rafiei

date Time：2024-02-02

paper pdf：http://arxiv.org/pdf/2402.01117v1

摘要：
文本到 SQL 任务的主要模型严重依赖于专有的大型语言模型 (LLM)，从而引发了对数据隐私的担忧。缩小小型开源模型与大型专有模型之间的性能差距对于减少这种依赖至关重要。为此，我们引入了一种新颖的两阶段微调方法，将任务分解为两个更简单的任务。通过对两个大型跨领域数据集和两个小型 LLM 的全面评估，我们发现这种方法能将执行准确率提高 3% 到 7%，从而有效地将开源模型的性能与专有模型的性能相匹配。

11.Can Large Language Models Understand Context?

标题:大型语言模型能理解语境吗？

author:Yilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng

date Time：2024-02-01

paper pdf：http://arxiv.org/pdf/2402.00858v1

摘要：
理解语境是理解人类语言的关键，而大型语言模型（LLMs）越来越多地展现出这种能力，令人印象深刻。然而，尽管对 LLM 的评估涵盖了自然语言处理领域的各个领域，但人们对其理解语境特征的语言能力的关注却很有限。本文通过对现有数据集进行调整，引入了一个语境理解基准，以适应生成模型的评估。该基准包括四个不同的任务和九个数据集，所有任务和数据集都有旨在评估模型理解语境能力的提示。首先，我们评估了 LLM 在上下文学习预训练场景下的性能。实验结果表明，与最先进的微调模型相比，经过预训练的密集模型在理解更细微的上下文特征方面存在困难。其次，由于 LLM 压缩在研究和实际应用中的重要性与日俱增，我们评估了量化模型在上下文学习设置下的上下文理解能力。我们发现，在我们的基准上，3 位训练后量化会导致不同程度的性能下降。我们对这些场景进行了广泛的分析，以证实我们的实验结果。

12.Efficient Exploration for LLMs

标题:有效探索 LLM

author:Vikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao, Benjamin Van Roy

date Time：2024-02-01

paper pdf：http://arxiv.org/pdf/2402.00396v1

摘要：
我们提出的证据表明，在收集人类反馈以改进大型语言模型的过程中，高效探索能带来巨大收益。在我们的实验中，代理按顺序生成查询，同时根据收到的反馈拟合奖励模型。我们表现最好的代理使用双汤普森采样生成查询，不确定性由认识论神经网络表示。我们的结果表明，高效的探索能够以更少的查询次数获得更高的性能。此外，不确定性估计和探索方案的选择都起着至关重要的作用。