外挂知识库的论文总结（后续还会更新）

论文列表：

1.Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks2005.11401 (arxiv.org)

提出了RAG在知识密集型的nlp任务

2.Gar-meets-rag paradigm for zero-shot information re trieval

论文介绍了一种新的信息检索（IR）范式，名为“GAR-meets-RAG”，用于处理零样本（zero-shot）检索问题。零样本检索是指在没有目标领域标记数据的情况下，模型需要从其预训练数据中泛化出检索能力。论文提出的方法是结合了两种流行的信息检索范式：生成增强检索（GAR）和检索增强生成（RAG）。主要贡献包括：

提出了一种新的GAR和RAG结合的循环公式，用于零样本信息检索问题。该方法使用RAG模型生成查询重写，该重写再输入到GAR模型中进行检索。
设计了一个简单、迭代的算法，名为RRR（RewriteRetrieve-Rerank），它通过重写-检索阶段最大化召回率，并通过最终的重新排名阶段提高精确度。
在两个流行的信息检索基准测试BEIR和TREC-DL上进行了广泛的评估和比较。该方法在BEIR基准测试的8个数据集中的6个上建立了新的最高标准，在Recall@100和nDCG@10指标上取得了高达17%的相对增益。论文还详细介绍了算法的实现细节、设计选择和挑战，并通过实验验证了所提出方法的有效性。此外，论文还讨论了相关工作，并对未来的工作提出了展望，包括模型大小的控制和推理成本的权衡，以及设计紧凑而有效的模型以改善零样本设置中的重新排名问题。

3.Improving language models by retrieving from trillions of tokens

通过在大量语料库中检索与前面令牌局部相似的文档块来增强自回归语言模型的条件化。我们的检索增强型变换器（RETRO）拥有2万亿个令牌的数据库，在Pile数据集上获得了与GPT-3和Jurassic-1相当的性能，尽管使用的参数少了25倍。经过微调后，RETRO的性能转化为下游知识密集型任务，例如问答。RETRO结合了一个冻结的Bert检索器、一个可微分的编码器和一个分块交叉注意力机制，基于比通常在训练期间消耗的数据多一个数量级的数据来预测令牌。我们通常从头开始训练RETRO，但也可以快速地对预训练的变换器进行RETROfit，增加检索功能，同时仍然取得良好的性能。我们的工作为通过在前所未有的规模上显式记忆来改进语言模型开辟了新的途径。

4.Training language models to follow instructions with human feedback

通过使用人类反馈来对大模型进行训练。

未下载

5.Query rewriting for retrieval-augmented large language models

探讨了查询重写技术在增强检索大型语言模型中的应用。

框架使用rewrite-retrieve-read而不是之前的retrieve-then-read.

采用一个小规模的语言模型作为可训练的重写器，以适应黑盒大型语言模型（LLM）阅读器。重写器通过强化学习使用LLM阅读器的反馈进行训练。评估在下游任务上进行，包括开放域问答和多项选择问答。

论文链接：

Retrieval-Augmented Generation for Large Language Models: A Surveyarxiv.org/pdf/2312.10997

6.Large language model based long-tail query rewriting in taobao search

查询重写作为一种重要的技术，用于弥合语义匹配过程中固有的语义差距，受到了行业和学术界的广泛关注。然而，现有的查询重写方法往往难以有效地优化长尾查询，并减轻由语义差距引起的“低召回率”现象。在本文中，我们提出了BEQUE，一个全面的框架，用于弥合长尾查询的语义差距。具体而言，BEQUE包括三个阶段：多指导的有监督微调（SFT）、离线反馈和目标对齐。

7.Query Rewriting in TaoBao Search

未下载

8.In-Context Retrieval-Augmented Language Models

检索增强语言建模（Retrieval-Augmented Language Modeling, RALM）方法在生成过程中将语言模型（LM）限定在来自基础语料库的相关文档上，已被证明可以显著提高语言建模的性能。此外，它们可以减轻生成文本事实上不准确的问题，并提供自然的源归属机制。现有的RALM方法侧重于修改LM架构以便于整合外部信息，这显著增加了部署的复杂性。本文考虑了一个简单的替代方案，我们称之为上下文内RALM（In-Context RALM）：保持LM架构不变，并将基础文档前置到输入中，而无需对LM进行进一步训练。我们展示了基于现成的通用检索器构建的上下文内RALM在不同模型大小和多样语料库上都能带来惊人的LM性能提升。我们还证明了文档检索和排名机制可以针对RALM设置进行专业化以进一步提升性能。我们得出结论，上下文内RALM在提高LM基础普及率方面具有相当的潜力，特别是在必须使用预训练的LM且无需修改或甚至通过API访问的设置中。

9.Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy

展示了一种称为Iter-RetGen的方法，该方法通过迭代方式协同检索和生成，可以实现强大的性能。模型的输出显示了完成任务可能需要的信息，因此提供了一个信息丰富的上下文，用于检索更相关的知识，这反过来又有助于在下一次迭代中生成更好的输出。与最近在生成输出时交替进行检索和生成的工作相比，Iter-RetGen将所有检索到的知识作为一个整体进行处理，并且在生成过程中保留了灵活性，而不受结构性限制。我们在多跳问题解答、事实验证和常识推理上评估了Iter-RetGen，并展示了它能够灵活地利用参数化知识和非参数化知识，并且在减少检索和生成的开销的同时，优于或与最先进的检索增强基线竞争。我们还可以通过生成增强的检索适应来进一步提高性能。

10.Active Retrieval Augmented Generation（动态检索）

大多数现有的检索增强LM采用一种基于输入仅检索一次信息的“检索-生成”设置。然而，这在涉及生成长篇文本的更一般场景中是有限制的，因为在生成过程中持续收集信息是必不可少的。在这项工作中，**我们提供了一个关于主动检索增强生成的概括性视角，这些方法在生成过程中积极决定何时以及检索什么。**我们提出了一种通用方法，前瞻性主动检索增强生成（FLARE），它迭代地使用即将出现的句子的预测来预见未来的内容，然后将其用作查询，以检索相关文档，如果该句子包含低置信度的标记，则重新生成该句子。我们在4个长篇知识密集型生成任务/数据集上全面测试了FLARE和基线。FLARE在所有任务上都取得了优越或具有竞争力的表现，证明了我们方法的有效性。

11.DRAGIN: Dynamic Retrieval Augmented Generation based on the Real-time Information Needs of Large Language Models（动态检索）

动态检索增强生成（Dynamic retrieval augmented generation, RAG）范式在大型语言模型（Large Language Models, LLMs）的文本生成过程中主动决定何时以及检索什么。这个范式的两个关键要素是：确定激活检索模块的最佳时机（决定何时检索）和一旦触发检索就制定适当的查询（确定检索什么）。然而，当前的动态RAG方法在这两个方面都存在不足。首先，决定何时检索的策略通常依赖于静态规则。此外，决定检索什么的策略通常限制在LLM最近的句子或最后几个标记上，而LLM的实际实时信息需求可能跨越整个上下文。为了克服这些限制，我们引入了一个新框架——DRAGIN，即基于LLMs实时信息需求的动态检索增强生成。我们的框架专门设计用于在文本生成过程中根据LLM的实时信息需求决定何时以及检索什么。我们在4个知识密集型生成数据集上全面评估了DRAGIN以及现有方法。实验结果表明，DRAGIN在所有任务上都取得了优越的性能，证明了我们方法的有效性。

12.Augmented Large Language Models with Parametric Knowledge Guiding

大型语言模型（LLMs）以其卓越的语言理解和生成能力显著推进了自然语言处理（NLP）的发展。然而，由于接触相关数据有限，它们在需要专业知识的特定领域任务上的表现可能不是最优的。此外，大多数最先进的（SOTA）LLMs缺乏透明度，只能通过API访问，这妨碍了使用领域定制数据进行进一步微调。此外，向LLMs的所有者提供私有数据会导致数据隐私问题。为了应对这些挑战，我们提出了一个新颖的参数化知识引导（Parametric Knowledge Guiding, PKG）框架，该框架为LLMs配备了一个知识引导模块，使其能够访问相关知识而无需改变LLMs的参数。我们的PKG基于开源的“白盒”语言模型，允许离线记忆LLMs所需的任何知识。我们证明了我们的PKG框架可以提升“黑盒”LLMs在一系列需要事实（+7.9%）、表格（+11.9%）、医疗（+3.0%）和多模态（+8.1%）知识的领域知识密集型任务上的性能。

13.Qibo: A Large Language Model for Traditional Chinese Medicine

● 阅读到一篇中医领域的大模型，感觉挺有参考价值，不同于大部分的领域模型，他是直接基于llama，没修改模型结构，但是在预训练语料文献上做的很全面。
● 预训练使用了来自古籍和现代文献，微调采用Instruction Tuning，这里提一嘴，在instruction tuning的论文中，8B以下的模型使用会有反效果。所以这里使用Instruction Tuning是否合适是存疑的。
● SFT阶段用了四类资料，首先是和我们一样设计了单轮和多轮对话，以及普通的文本来防止模型灾难性遗忘。其次增加了Instruction Data（实体识别，症状识别，阅读理解）并且自己弄了一套benchmark，用来和市面上的LLM做对比。

14.The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG)

检索增强生成（Retrieval-Augmented Generation, RAG）是一种强大的技术，它能够在保护数据隐私的同时，利用专有和私有数据来促进语言模型的发展，其中数据隐私是一个关键的关切点。尽管广泛的研究已经展示了大型语言模型（Large Language Models, LLMs）的隐私风险，但RAG技术可能会潜在地改变LLM生成的固有行为，带来目前尚未充分探索的新隐私问题。在这项工作中，我们使用新的攻击方法进行了广泛的实证研究，这些研究展示了RAG系统在泄露私有检索数据库方面的脆弱性。尽管RAG带来了对检索数据的新风险，我们进一步揭示了RAG可以减少LLMs训练数据泄露的可能性。总体而言，我们在本文中为检索增强LLMs的隐私保护提供了新的见解，这些见解对LLMs和RAG系统构建者都有益。

15.Analyzing Leakage of Personally Identifiable Information in Language Models

语言模型（LMs）已经显示出可以通过句子级别的成员资格推断和重建攻击泄露训练数据的信息。对于LMs泄露个人身份识别信息（Personally Identifiable Information, PII）的风险，人们关注较少，这可以归因于一个错误的假设，即认为像擦除这样的数据集整理技术足以防止PII泄露。擦除技术减少了但并未防止PII泄露的风险：在实践中，擦除是不完美的，并且必须在最小化披露和保持数据集效用之间进行权衡。另一方面，尚不清楚如差分隐私这样的算法防御措施在多大程度上可以防止PII披露，这些措施旨在保证句子或用户级别的隐私。在这项工作中，我们为通过黑盒提取、推断和重建攻击泄露PII引入了严格的基于游戏的定义，这些攻击仅通过API访问LM。我们在三个领域：案例法、医疗保健和电子邮件中，对经过防御微调和未经过防御的GPT-2模型进行了攻击的实证评估。我们的主要贡献是：（i）新的攻击可以比现有攻击多提取多达10倍的PII序列，（ii）表明句子级别的差分隐私减少了PII披露的风险，但仍然泄露了约3%的PII序列，以及（iii）记录级别成员资格推断和PII重建之间的微妙联系。可以在该网址重现本文所有实验的代码。

16.KNOWLEDGE UNLEARNING FOR MITIGATING PRIVACY RISKS IN LANGUAGE MODELS

预训练语言模型（LMs）在最初的预训练过程中记忆了大量知识，包括可能侵犯个人生活和身份隐私的信息。以往针对语言模型隐私问题的工作主要集中在数据预处理和差分隐私方法上，这两种方法都需要重新训练底层的LM。我们提出了知识“忘却”作为一种替代方法，以减少LMs事后的隐私风险。我们展示了一个简单的方法：对目标标记序列执行梯度上升，这种方法在几乎不降低大型LMs通用语言建模性能的情况下，有效地忘记了它们；有时甚至只需几次迭代就能显著改善底层LM。我们还发现，顺序忘却比一次性尝试忘却所有数据更有效，且忘却过程高度依赖于被忘却的数据类型（领域）。通过与一种已知可以减轻LMs隐私风险的数据预处理方法和解码方法进行比较，我们展示了在事先知道易受提取攻击的数据的情况下，忘却可以提供更强的经验隐私保证，同时更有效、更稳健。我们在 https://github.com/joeljang/knowledge-unlearning 上发布了复制我们结果所需的代码和数据集。