AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.03.05-2024.03.10—（1）

文章目录~

1.Editing Conceptual Knowledge for Large Language Models
2.TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision
3.Are You Being Tracked? Discover the Power of Zero-Shot Trajectory Tracing with LLMs!
4.Can LLM Substitute Human Labeling? A Case Study of Fine-grained Chinese Address Entity Recognition Dataset for UAV Delivery
5.Reframe Anything: LLM Agent for Open World Video Reframing
6.Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations
7.LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content
8.MP2D: An Automated Topic Shift Dialogue Generation Framework Leveraging Knowledge Graphs
9. $\textbf{S}^2$ IP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting
10.ItD: Large Language Models Can Teach Themselves Induction through Deduction
11.Decoding the AI Pen: Techniques and Challenges in Detecting AI-Generated Text
12.Decomposing Vision-based LLM Predictions for Auto-Evaluation with GPT-4
13.PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System Co-design
14.GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM
15.DeepSeek-VL: Towards Real-World Vision-Language Understanding
16.Unfamiliar Finetuning Examples Control How Language Models Hallucinate
17.Will GPT-4 Run DOOM?
18.Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive Data Analysis Agents
19.ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models
20.SaulLM-7B: A pioneering Large Language Model for Law
21.Towards Safe and Aligned Large Language Models for Medicine

1.Editing Conceptual Knowledge for Large Language Models

标题:为大型语言模型编辑概念知识

author:Xiaohan Wang, Shengyu Mao, Ningyu Zhang, Shumin Deng, Yunzhi Yao, Yue Shen, Lei Liang, Jinjie Gu, Huajun Chen

publish:Work in progress. Code: https://github.com/zjunlp/EasyEdit Dataset:
https://huggingface.co/datasets/zjunlp/ConceptEdit

date Time:2024-03-10

paper pdf:http://arxiv.org/pdf/2403.06259v1

摘要：
最近，人们对大型语言模型（LLM）的知识编辑越来越感兴趣。目前的方法和评估仅仅探讨了实例级编辑，而 LLM 是否具备修改概念的能力仍不清楚。本文通过构建新颖的基准数据集 ConceptEdit 和建立一套新的评估指标，开创了为 LLMs 编辑概念知识的研究。实验结果表明，虽然现有的编辑方法可以在一定程度上有效地修改概念级定义，但它们也有可能扭曲 LLM 中的相关即时知识，从而导致性能低下。我们预计，这将激励我们在更好地理解 LLM 方面取得进一步进展。我们的项目主页是 https://zjunlp.github.io/project/ConceptEdit。

2.TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision

标题:TRAD：通过分步思想检索和对齐决策增强 LLM 代理

author:Ruiwen Zhou, Yingxuan Yang, Muning Wen, Ying Wen, Wenhao Wang, Chunling Xi, Guoqiang Xu, Yong Yu, Weinan Zhang

publish:Codes available at: https://github.com/skyriver-2000/TRAD-Official

date Time:2024-03-10

paper pdf:http://arxiv.org/pdf/2403.06221v1

摘要：
由于大型语言模型（LLM）具有广博的知识和理解文本的能力，因此已经有许多大型语言模型（LLM）代理被用于不同的任务，如网络导航和在线购物。在这些作品中，很多都是利用上下文中的示例来实现泛化，而无需进行微调，但很少有人考虑过如何选择和有效利用这些示例的问题。最近，有人提出了基于任务元数据的轨迹级检索和使用轨迹作为上下文示例的方法，以提高代理在某些连续决策任务中的整体性能。然而，这些方法可能存在问题，因为检索到的可信示例没有特定任务的状态转换动态，而且输入较长，包含大量无关上下文。在本文中，我们提出了一个新颖的框架（TRAD）来解决这些问题。TRAD 首先进行思维检索，通过思维匹配实现步骤级示范选择，从而获得更多有用的示范，减少无关输入噪音。然后，TRAD 引入了 “对齐决策”（Aligned Decision），将检索到的演示步骤与之前或之后的步骤进行互补，从而实现对不完善思维的容忍，并在更多上下文和更少的噪音之间实现平衡。在 ALFWorld 和 Mind2Web 基准上进行的大量实验表明，TRAD 不仅优于最先进的模型，还能有效帮助减少噪音和促进泛化。此外，TRAD 已被部署到一家全球商业保险公司的实际场景中，并提高了机器人流程自动化的成功率。

3.Are You Being Tracked? Discover the Power of Zero-Shot Trajectory Tracing with LLMs!

标题:您被跟踪了吗？与 LLM 一起探索零点轨迹追踪的威力！

author:Huanqi Yang, Sijie Ji, Rucheng Wu, Weitao Xu

date Time:2024-03-10

paper pdf:http://arxiv.org/pdf/2403.06201v1

摘要：
围绕大型语言模型（LLMs）作为基本组件的能力的讨论正在蓬勃开展，这些组件可以无缝集成到人工智能物联网（AIoT）中，以解释复杂的轨迹。本研究介绍了 LLMTrack 模型，该模型通过采用一种新颖的单一提示技术，将角色扮演和逐步思考方法与未处理的惯性测量单元（IMU）数据相结合，说明了如何利用 LLMs 进行零射击轨迹识别。我们使用真实世界的数据集对该模型进行了评估，这些数据集旨在用室内和室外场景的不同轨迹对该模型进行挑战。在这两种测试场景中，LLMTrack 不仅达到而且超过了传统机器学习方法甚至当代最先进的深度学习模型所设定的性能基准，所有这些都不需要在专门的数据集上进行训练。我们的研究结果表明，通过有策略地设计提示，LLM 可以利用其广泛的知识库，以出色的效率分析原始传感器数据。

4.Can LLM Substitute Human Labeling? A Case Study of Fine-grained Chinese Address Entity Recognition Dataset for UAV Delivery

标题:LLM 能否替代人工标注？用于无人机送货的细粒度中文地址实体识别数据集案例研究

author:Yuxuan Yao, Sichun Luo, Haohan Zhao, Guanzhi Deng, Linqi Song

publish:Accepted by TheWebConf’24 (WWW’24) as a Resource Paper

date Time:2024-03-10

paper pdf:http://arxiv.org/pdf/2403.06097v1

摘要：
我们介绍的CNER-UAV是一个细粒度的中文（textbf{C}）、姓名（textbf{N}）、身份（textbf{E}）、地址（textbf{R}识别数据集，专门为无人驾驶（textbf{U}）、空中（textbf{A}）、运载（textbf{V}）系统中的地址解析任务而设计。该数据集包含五个不同的类别，可对 NER 模型进行全面的训练和评估。为了构建该数据集，我们从真实世界的无人机投递系统中获取数据，并进行了严格的数据清洗和脱敏处理，以确保隐私和数据完整性。由此产生的数据集由约 12,000 个注释样本组成，经过了人类专家和大型语言模型的注释。我们在数据集上评估了经典的 NER 模型，并进行了深入分析。数据集和模型可在（url{https://github.com/zhhvvv/CNER-UAV}）上公开获取。

5.Reframe Anything: LLM Agent for Open World Video Reframing

标题:重构一切：开放世界视频重构的 LLM 代理

author:Jiawang Cao, Yongliang Wu, Weiheng Chi, Wenbo Zhu, Ziyue Su, Jay Wu

publish:14 pages, 6 figures

date Time:2024-03-10

paper pdf:http://arxiv.org/pdf/2403.06070v1

摘要：
移动设备和社交媒体的普及给内容传播带来了革命性的变化，短视频变得越来越普遍。这一转变带来了视频重构的挑战，以适应不同的屏幕纵横比，这一过程可以突出视频中最引人注目的部分。传统上，视频重构是一项需要专业知识的人工耗时工作，制作成本高昂。一种潜在的解决方案是采用一些机器学习模型（如视频突出对象检测）来自动完成这一过程。然而，这些方法由于依赖于特定的训练数据，往往缺乏通用性。功能强大的大型语言模型（LLM）的出现为人工智能能力开辟了新的途径。在此基础上，我们推出了 “任意视频重构代理”（RAVA），这是一种基于 LLM 的代理，可利用视觉基础模型和人类指令来重组视频重构的视觉内容。RAVA 的运行分为三个阶段：感知，即解释用户指令和视频内容；规划，即确定宽高比和重构策略；执行，即调用编辑工具制作最终视频。我们的实验验证了 RAVA 在视频突出物体检测和现实世界重构任务中的有效性，证明了它作为人工智能驱动的视频编辑工具的潜力。

6.Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations

标题:安全可靠的 LLM 探测器：实现、用途和局限性

author:Swapnaja Achintalwar, Adriana Alvarado Garcia, Ateret Anaby-Tavor, Ioana Baldini, Sara E. Berger, Bishwaranjan Bhattacharjee, Djallel Bouneffouf, Subhajit Chaudhury, Pin-Yu Chen, Lamogha Chiazor, Elizabeth M. Daly, Rogério Abreu de Paula, Pierre Dognin, Eitan Farchi, Soumya Ghosh, Michael Hind, Raya Horesh, George Kour, Ja Young Lee, Erik Miehling, Keerthiram Murugesan, Manish Nagireddy, Inkit Padhi, David Piorkowski, Ambrish Rawat, Orna Raz, Prasanna Sattigeri, Hendrik Strobelt, Sarathkrishna Swaminathan, Christoph Tillmann, Aashka Trivedi, Kush R. Varshney, Dennis Wei, Shalisha Witherspooon, Marcel Zalmanovici

date Time:2024-03-09

paper pdf:http://arxiv.org/pdf/2403.06009v1

摘要：
大型语言模型（LLM）容易受到各种风险的影响，从不忠实的输出到有偏见和有毒的生成。由于 LLM 的一些限制因素（训练成本、API 访问、数据可用性等），对已部署的模型施加直接的安全约束并不总是可行的。因此，我们需要一种高效可靠的替代方法。为此，我们介绍了我们在创建和部署一个检测器库方面所做的持续努力：该检测器库是一个结构紧凑、易于构建的分类模型，可为各种危害提供标签。除了检测器本身，我们还讨论了这些检测器模型的广泛用途–从充当防护栏到实现有效的人工智能治理。我们还深入探讨了其开发过程中固有的挑战，并讨论了旨在使检测器更加可靠并扩大其范围的未来工作。

7.LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content

标题:LTGC：利用 LLMs 生成的内容进行长尾识别

author:Qihao Zhao, Yalun Dai, Hao Li, Wei Hu, Fan Zhang, Jun Liu

publish:CVPR 2024

date Time:2024-03-09

paper pdf:http://arxiv.org/pdf/2403.05854v2

摘要：
长尾识别具有挑战性，因为它要求模型从尾部类别中学习良好的表征，并解决所有类别中的不平衡问题。在本文中，我们提出了一个新颖的生成和微调框架 LTGC，通过利用生成内容来处理长尾识别问题。首先，受大规模模型（如大型语言模型，LLM）中丰富的隐含知识的启发，LTGC 利用这些模型的力量对原始尾部数据进行解析和推理，从而生成多样化的尾部类别内容。然后，我们为 LTGC 提出了几种新颖的设计，以确保生成数据的质量，并利用生成数据和原始数据有效地对模型进行微调。可视化展示了 LTGC 中生成模块的有效性，它能生成准确且多样化的尾部数据。此外，实验结果表明，在流行的长尾基准上，我们的 LTGC 优于现有的最先进方法。

8.MP2D: An Automated Topic Shift Dialogue Generation Framework Leveraging Knowledge Graphs

标题:MP2D：利用知识图谱的自动话题转移对话生成框架

author:Yerin Hwang, Yongil Kim, Yunah Jang, Jeesoo Bang, Hyunkyung Bae, Kyomin Jung

publish:20 pages

date Time:2024-03-09

paper pdf:http://arxiv.org/pdf/2403.05814v1

摘要：
尽管主题对话系统取得了进步，但有效管理对话中的话题转换仍然是一个长期存在的挑战，这主要归因于训练数据集的可用性有限。为了解决这个问题，我们提出了多段对话（MP2D），这是一个数据生成框架，可以自动创建具有自然话题转换的对话问题解答数据集。通过利用知识图谱中实体之间的关系，MP2D 可以映射对话中的话题流，有效反映人类对话的动态。它检索与话题相对应的相关段落，并通过段落到对话的方法将其转换为对话。通过定量和定性实验，我们证明了 MP2D 在生成具有自然话题转换的对话方面的功效。此外，本研究还引入了一个新颖的话题转换对话基准–TS-WikiDialog。利用该数据集，我们证明了即使是大型语言模型（LLM）也很难有效处理对话中的话题转换，我们还展示了在 MP2D 生成的数据集上训练的模型在各种话题转换对话任务中的性能改进。

9. $\textbf{S}^2$ IP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting

标题: $textbf{S}^2$ IP-LLM：用于时间序列预测的语义空间信息提示学习与 LLM

author:Zijie Pan, Yushan Jiang, Sahil Garg, Anderson Schneider, Yuriy Nevmyvaka, Dongjin Song

date Time:2024-03-09

paper pdf:http://arxiv.org/pdf/2403.05798v1

摘要：
最近，人们对利用预训练的大型语言模型（LLMs）进行各种时间序列应用的兴趣与日俱增。然而，通过预训练建立起来的 LLM 的语义空间仍未得到充分探索，而语义空间可能有助于产生更独特、更翔实的表征，从而促进时间序列预测。为此，我们提出了使用 LLM 的语义空间信息提示学习（ $S^2$ IP-LLM），将预训练的语义空间与时间序列嵌入空间相统一，并根据从联合空间学习到的提示进行时间序列预测。我们首先设计了一个专为跨模态对齐量身定制的标记化模块，该模块明确地将分解的时间序列成分的片段连接起来，以创建能有效编码时间动态的嵌入。接下来，我们利用预先训练好的单词标记嵌入来推导语义锚点，并通过最大化联合空间中的余弦相似度，将选定的锚点与时间序列嵌入对齐。这样， $S^2$ IP-LLM 就能检索到相关的语义锚，作为提示，为表现出不同时间动态的时间序列提供强有力的指标（上下文）。通过对多个基准数据集进行深入的实证研究，我们证明了所提出的 $S^2$ IP-LLM 可以实现优于最先进基线的预测性能。此外，我们的消融研究和可视化效果也验证了在语义空间指导下进行及时学习的必要性。

10.ItD: Large Language Models Can Teach Themselves Induction through Deduction

标题:ItD：大型语言模型可以通过演绎法自学归纳法

author:Wangtao Sun, Haotian Xu, Xuanqing Yu, Pei Chen, Shizhu He, Jun Zhao, Kang Liu

date Time:2024-03-09

paper pdf:http://arxiv.org/pdf/2403.05789v1

摘要：
尽管大型语言模型（LLM）在各种自然语言处理任务中表现出令人印象深刻的性能，但研究人员发现，它们进行归纳的能力仍然有限。最近的研究主要采用 "后处理 "范式来提高 LLMs 的归纳性能（如假设搜索和细化方法），但其性能仍然受到 LLMs 固有归纳能力的限制。在本文中，我们提出了一个新颖的框架–“通过演绎进行归纳”（Induction through Deduction，简称 ItD），使 LLMs 能够通过演绎自学归纳。ItD 框架由两个主要部分组成：用于生成归纳数据的演绎数据生成模块和用于优化 LLMs 微调和解码的 Naive Bayesian 归纳模块。我们的实证结果展示了 ItD 在两个归纳基准上的有效性，与之前的先进技术相比，其性能分别提高了 36% 和 10%。我们的消融研究验证了 ItD 两个关键模块的有效性。我们还验证了 ItD 在不同 LLM 和演绎法中的有效性。本文的数据和代码见 https://anonymous.4open.science/r/ItD-E844。

11.Decoding the AI Pen: Techniques and Challenges in Detecting AI-Generated Text

标题:解码人工智能笔：检测人工智能生成文本的技术与挑战

author:Sara Abdali, Richard Anarfi, CJ Barberan, Jia He

date Time:2024-03-09

paper pdf:http://arxiv.org/pdf/2403.05750v1

摘要：
大型语言模型（LLM）在生成类人文本方面表现出了令人印象深刻的能力，从而彻底改变了自然语言生成（NLG）领域。然而，它们的广泛使用也带来了挑战，需要深思熟虑、道德审查和负责任的实践。在本研究中，我们深入探讨了这些挑战，探索了减轻这些挑战的现有策略，并特别强调将人工智能生成的文本确定为最终解决方案。此外，我们还从理论角度评估了检测的可行性，并提出了新的研究方向，以解决该领域目前存在的局限性。

12.Decomposing Vision-based LLM Predictions for Auto-Evaluation with GPT-4

标题:利用 GPT-4 分解基于视觉的 LLM 预测以进行自动评估

author:Qingqing Zhu, Benjamin Hou, Tejas S. Mathai, Pritam Mukherjee, Qiao Jin, Xiuying Chen, Zhizheng Wang, Ruida Cheng, Ronald M. Summers, Zhiyong Lu

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05680v1

摘要：
全球 CT 检查量逐年上升，导致放射科医生疲惫不堪。大型语言模型 (LLM) 有可能减轻他们的负担，但在临床中的应用取决于放射科医生的信任和对生成内容的简易评估。目前，有许多自动方法可用于评估胸片生成的报告，但这种方法目前还不适用于 CT。在本文中，我们提出了一个新颖的评估框架，用于判断视觉语言 LLM 在生成准确的 CT 异常摘要方面的能力。将包含异常（如病变）的 CT 切片输入基于视觉的 LLM（GPT-4V、LLaVA-Med 和 RadFM），它就会生成异常预测特征的自由文本摘要。接下来，GPT-4 模型将摘要分解成具体的方面（身体部位、位置、类型和属性），对照地面实况自动评估特征，并根据临床相关性和事实准确性为每个方面评分。然后将这些分数与从临床医生那里获得的分数进行对比，结果发现两者之间具有很高的相关性（85%，P < .001）。虽然 GPT-4V 在我们的评估中表现优于其他模型，但仍需全面改进。我们的评估方法为最需要改进的特定领域提供了宝贵的见解，为该领域的未来发展提供了指导。

13.PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System Co-design

标题:PipeRAG：通过算法-系统协同设计实现快速检索-增强生成

author:Wenqi Jiang, Shuai Zhang, Boran Han, Jie Wang, Bernie Wang, Tim Kraska

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05676v1

摘要：
检索增强生成（RAG）可以通过整合外部标记数据库来提高大型语言模型（LLM）的生成质量。然而，从大型数据库中检索可能会占去整个生成时间的很大一部分，尤其是在定期进行检索以使检索内容与最新生成状态保持一致的情况下。在本文中，我们介绍了 PipeRAG，这是一种新颖的算法-系统协同设计方法，可减少生成延迟并提高生成质量。PipeRAG 集成了：（1）流水线并行，以实现并发检索和生成过程；（2）灵活的检索间隔，以最大限度地提高流水线并行的效率；（3）性能模型，以根据生成状态和底层硬件自动平衡检索质量和延迟。我们的评估结果表明，通过结合上述三种方法，PipeRAG 在提高生成质量的同时，端到端生成延迟最多可加快 2.6 美元/次。这些充满希望的结果展示了算法与底层系统协同设计的有效性，为在未来的 RAG 系统中采用 PipeRAG 铺平了道路。

14.GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM

标题:GEAR：用于近乎无损失的 LLM 生成推理的高效 KV 缓存压缩配方

author:Hao Kang, Qingru Zhang, Souvik Kundu, Geonhwa Jeong, Zaoxing Liu, Tushar Krishna, Tuo Zhao

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05527v2

摘要：
键值（KV）缓存已成为加快大型语言模型（LLM）推理生成速度的事实。然而，随着序列长度的增加，缓存需求也在不断增长，这使得 LLM 推理变成了一个内存约束问题，极大地限制了系统的吞吐量。现有的方法依赖于放弃不重要的标记或均匀量化所有条目。然而，这些方法在表示压缩矩阵时往往会产生较高的近似误差。自回归解码过程进一步加剧了每一步的误差，导致模型生成出现严重偏差，性能下降。为了应对这一挑战，我们提出了一种高效的 KV 缓存压缩框架–GEAR，它能实现近乎无损的高比率压缩。GEAR 首先对大部分大小相似的条目进行超低精度量化。然后，它采用低秩矩阵来近似量化误差，并采用稀疏矩阵来弥补离群条目的个别误差。通过巧妙地整合三种技术，GEAR 能够充分发挥它们的协同潜力。我们的实验证明，与其他技术相比，GEAR 实现了近乎无损的 4 位 KV 高速缓存压缩，吞吐量提高了 2.38 倍，同时内存峰值大小减少了 2.29 倍。我们的代码可通过 https://github.com/HaoKang-Timmy/GEAR 公开获取。

15.DeepSeek-VL: Towards Real-World Vision-Language Understanding

标题:DeepSeek-VL：实现真实世界的视觉语言理解

author:Haoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Hao Yang, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan

publish:https://github.com/deepseek-ai/DeepSeek-VL

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05525v2

摘要：
我们推出的 DeepSeek-VL 是一个开源的视觉语言（VL）模型，专为真实世界的视觉和语言理解应用而设计。我们的方法围绕三个关键维度展开：我们努力确保数据的多样性和可扩展性，并广泛涵盖现实世界的各种场景，包括网页截图、PDF、OCR、图表和基于知识的内容，旨在全面呈现实际语境。此外，我们还根据真实用户场景创建了用例分类法，并据此构建了指令调整数据集。利用该数据集进行的微调大大改善了模型在实际应用中的用户体验。考虑到大多数实际应用场景的效率和需求，DeepSeek-VL采用了混合视觉编码器，可高效处理高分辨率图像（1024 x 1024），同时保持相对较低的计算开销。这一设计选择确保了该模型在各种视觉任务中捕捉关键语义和细节信息的能力。我们认为，一个熟练的视觉语言模型首先应具备强大的语言能力。为了确保在预训练过程中保留 LLM 的能力，我们研究了一种有效的 VL 预训练策略，即从一开始就整合 LLM 训练，并仔细管理视觉和语言模式之间的竞争动态。 DeepSeek-VL 系列（包括 1.3B 和 7B 模型）作为视觉语言聊天机器人在现实世界的应用中展示了卓越的用户体验，在相同模型大小的各种视觉语言基准测试中取得了最先进或具有竞争力的性能，同时在以语言为中心的基准测试中保持了强劲的性能。我们公开了 1.3B 和 7B 模型，以促进基于该基础模型的创新。

16.Unfamiliar Finetuning Examples Control How Language Models Hallucinate

标题:陌生的微调实例控制语言模型如何产生幻觉

author:Katie Kang, Eric Wallace, Claire Tomlin, Aviral Kumar, Sergey Levine

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05612v1

摘要：
大语言模型（LLMs）往往会产生听起来似乎合理但实际上不正确的回答，尤其是在询问不熟悉的概念时。在这项研究中，我们探索了微调大型语言模型产生幻觉的内在机制。我们的研究揭示了一种有趣的模式：随着输入变得越来越陌生，LLM 的输出倾向于默认为 "对冲 "预测，其形式由微调数据中陌生示例的监督方式决定。因此，通过战略性地修改这些示例的监督方式，我们可以控制 LLM 对陌生输入的预测（例如，教它们说 “我不知道”）。基于这些原则，我们开发了一种 RL 方法，通过解决奖赏模型幻觉带来的挑战，更可靠地减轻了长形生成任务中的幻觉。我们通过一系列受控实验验证了我们的研究结果，这些实验包括 MMLU 的多选 QA 以及长篇传记和书籍/电影情节生成任务。

17.Will GPT-4 Run DOOM?

标题:GPT-4 能否运行 DOOM？

author:Adrian de Wynter

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05468v1

摘要：
我们的研究表明，GPT-4 的推理和规划能力适用于 1993 年的第一人称射击游戏《毁灭战士》。这个大型语言模型（LLM）只需几条指令就能运行和玩这款游戏，另外还有一个文本描述–由模型本身根据截图生成–关于所观察到的游戏状态。我们发现，GPT-4 可以在一定程度上玩游戏：它能够操纵门、与敌人战斗并执行路径选择。涉及多个模型调用的更复杂的提示策略能带来更好的效果。我们注意到，GPT-4 不需要任何训练，而是依靠自身的推理和观察能力就能玩游戏。我们希望我们的工作能推动视频游戏中基于 LLM 的智能代理的发展。最后，我们将讨论我们工作的伦理意义。

18.Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive Data Analysis Agents

标题:Tapilot-Crossing：为交互式数据分析代理建立基准并发展 LLMs

author:Jinyang Li, Nan Huo, Yan Gao, Jiayi Shi, Yingxiu Zhao, Ge Qu, Yurong Wu, Chenhao Ma, Jian-Guang Lou, Reynold Cheng

publish:30 pages, 7 figures

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05307v1

摘要：
交互式数据分析（Interactive Data Analysis）是人类与大型语言模型（LLM）代理之间的协作，可实现实时数据探索，从而做出明智的决策。收集真实的交互式数据分析日志所面临的挑战和成本阻碍了对大型语言模型（LLM）代理在这项任务中的定量评估。为了缓解这一问题，我们引入了 Tapilot-Crossing 这一新基准来评估 LLM 代理的交互式数据分析能力。Tapilot-Crossing 包含 1024 个交互，涵盖 4 个实际场景：正常、行动、私人和私人行动。值得注意的是，Tapilot-Crossing 是由经济型多代理环境 “决策公司”（Decision Company）构建的，几乎不需要人工操作。我们在 Tapilot-Crossing 中对流行的和先进的 LLM 代理进行了评估，这凸显了交互式数据分析所面临的挑战。此外，我们还提出了自适应交互反思（AIR），这是一种引导 LLM 代理从成功历史中学习的自生成反思策略。实验证明，AIR 可以将 LLM 演化成有效的交互式数据分析代理，实现高达 44.5% 的相对性能提升。

19.ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models

标题:ERBench：基于实体关系的大型语言模型自动可验证幻觉基准

author:Jio Oh, Soyeon Kim, Junseok Seo, Jindong Wang, Ruochen Xu, Xing Xie, Steven Euijong Whang

date Time:2024-03-08

paper pdf:http://arxiv.org/pdf/2403.05266v1

摘要：
大型语言模型（LLM）在各种应用中取得了前所未有的性能，但对其进行评估仍是一个关键问题。现有的幻觉基准要么是静态的，要么缺乏可调整的复杂性，无法进行彻底分析。我们认为，利用现有的关系数据库构建基准是一种很有前途的方法，因为这些数据库通过功能依赖关系对知识进行了准确的描述。我们提出的 ERBench 可以自动将任何关系数据库转换为基于实体-关系（ER）模型的基准。我们的主要想法是利用数据库模式、记录和功能依赖关系来构建问题，以便自动验证。此外，我们还使用外键约束来连接关系和构建多跳问题，这些问题可以任意复杂，并可用于调试 LLM 的中间答案。最后，ERBench 支持连续评估、多模式问题和各种提示工程技术。在实验中，我们使用多个领域的数据库构建了一个 LLM 基准，并对当代 LLM 进行了广泛比较。我们发现，GPT-4 等更好的 LLM 可以处理更多的问题类型，但也并非完美无缺。此外，正确的答案并不一定意味着正确的理由，这也是ERBench在各种问题类型的评估中优于其他基准的重要原因。代码见 https：//github.com/DILAB-KAIST/ERBench。

20.SaulLM-7B: A pioneering Large Language Model for Law

标题:SaulLM-7B：开创性的大型法律语言模型

author:Pierre Colombo, Telmo Pessoa Pires, Malik Boudiaf, Dominic Culver, Rui Melo, Caio Corro, Andre F. T. Martins, Fabrizio Esposito, Vera Lúcia Raposo, Sofia Morgado, Michael Desa

date Time:2024-03-06

paper pdf:http://arxiv.org/pdf/2403.03883v2

摘要：
在本文中，我们介绍了 SaulLM-7B，这是一款专为法律领域定制的大型语言模型（LLM）。SaulLM-7B 拥有 70 亿个参数，是首个明确为法律文本理解和生成而设计的 LLM。SaulLM-7B 以 Mistral 7B 架构为基础，在超过 300 亿个词块的英语法律语料库上进行训练。SaulLM-7B 在理解和处理法律文档方面表现出了最先进的能力。此外，我们还提出了一种新颖的教学微调方法，利用法律数据集进一步提高 SaulLM-7B 在法律任务中的性能。SaulLM-7B 采用 MIT 许可发布。

21.Towards Safe and Aligned Large Language Models for Medicine

标题:为医学建立安全、统一的大型语言模型

author:Tessa Han, Aounon Kumar, Chirag Agarwal, Himabindu Lakkaraju

date Time:2024-03-06

paper pdf:http://arxiv.org/pdf/2403.03744v1

摘要：
大型语言模型（LLMs）的功能正以令人惊叹的速度不断进步，就连其开发人员也在努力挖掘其潜力和风险。虽然已经采取了初步措施来评估一般知识 LLMs 的安全性和一致性，并暴露出了一些弱点，但据我们所知，医疗 LLMs 的安全性和一致性尚未得到评估，尽管它们对个人健康和安全、公共健康和安全以及人权都存在风险。为此，我们首次对医用 LLM 进行了安全评估。具体来说，我们提出了医疗人工智能系统的医疗安全性和对齐性的定义，开发了一个有害医疗问题数据集来评估 LLM 的医疗安全性和对齐性，评估了医疗 LLM 的一般和医疗安全性和对齐性，证明了微调是一种有效的缓解策略，并讨论了机器学习社区用于开发安全和对齐的 LLM 的更广泛、更大规模的方法。我们希望这项工作能够阐明医学 LLM 的安全性和一致性，并激励未来的工作对其进行研究和开发更多缓解策略，从而最大限度地降低 LLM 在医学中的危害风险。

AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.03.05-2024.03.10—（1）

文章目录~

1.Editing Conceptual Knowledge for Large Language Models

2.TRAD: Enhancing LLM Agents with Step-Wise Thought Retrieval and Aligned Decision

3.Are You Being Tracked? Discover the Power of Zero-Shot Trajectory Tracing with LLMs!

4.Can LLM Substitute Human Labeling? A Case Study of Fine-grained Chinese Address Entity Recognition Dataset for UAV Delivery

5.Reframe Anything: LLM Agent for Open World Video Reframing

6.Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations

7.LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content

8.MP2D: An Automated Topic Shift Dialogue Generation Framework Leveraging Knowledge Graphs

9. S 2 \textbf{S}^2 S2IP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting

10.ItD: Large Language Models Can Teach Themselves Induction through Deduction

11.Decoding the AI Pen: Techniques and Challenges in Detecting AI-Generated Text

12.Decomposing Vision-based LLM Predictions for Auto-Evaluation with GPT-4

13.PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System Co-design

14.GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM

15.DeepSeek-VL: Towards Real-World Vision-Language Understanding

16.Unfamiliar Finetuning Examples Control How Language Models Hallucinate

17.Will GPT-4 Run DOOM?

18.Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive Data Analysis Agents

19.ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models

20.SaulLM-7B: A pioneering Large Language Model for Law

21.Towards Safe and Aligned Large Language Models for Medicine

相关推荐

最近更新

热门阅读

9. $\textbf{S}^2$ IP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting