生产中的 RAG：使你的生成式 AI 项目投入运营

作者：来自 Elastic Tim Brophy

检索增强生成 (RAG) 为组织提供了一个采用大型语言模型 (LLM) 的机会，即通过将生成式人工智能 (GenAI) 功能应用于其自己的专有数据。使用 RAG 可以降低固有风险，因为我们依赖受控数据集作为模型答案的基础，而不是依赖可能不可靠、与我们的用例无关或完全不正确的训练数据。但是，你必须不断管理 RAG 管道，以确保答案有根据且准确。本博客将探讨在生产中部署 RAG 功能的关键注意事项，并展示 Elastic Search AI 平台如何为你提供所需的洞察力，让你安心运行 RAG 管道。

定义 RAG 管道

典型的 RAG 实现包括将用户提供的问题连同附带的上下文一起发送到 LLM。上下文需要提供相关信息，以告知 LLM 的答案。上下文由搜索结果生成，搜索结果是通过对用户问题与向量存储的内容进行评估而返回的，以确保结果在语义上与问题相匹配。在 Elastic Search AI 平台的情况下，上下文也可以是混合搜索的结果，其中包括词汇搜索、文档过滤和访问控制规则。通过一次谨慎的动作执行混合搜索操作的能力，开发人员可以通过结合语义轴和词汇搜索轴的结果，为 LLM 构建尽可能相关的上下文。此外，过滤器和访问控制规则限制了将要搜索的数据语料库，以符合 RBAC 规则，既提高了性能，又维护了数据安全。

LLM 接收问题，解释上下文，然后给出答案，该答案通常是上下文的摘要或来自上下文的相关陈述的综合。问题和上下文的组合被称为提示（prompt），提示还为 LLM 提供了有关其角色的说明和定义其应如何回答的护栏。开发人员创建了一个称为提示模板的工件，该工件以逻辑方式将所有这些值组合在一起，可以重复使用和微调以确保正确的结果。

因此，RAG 实现可以看作是由以下元素组成的管道：

用户提供的问题
搜索生成的上下文
提示模板
LLM 生成的答案

生产注意事项

在实施 RAG 管道时，需要考虑许多操作和性能注意事项，以确保提供的体验符合最终用户和在其应用程序中构建 LLM 功能的团队的期望。

与任何应用程序一样，需要跟踪指标，以确保 RAG 管道在 SLO 和 SLI 目标范围内运行。
问题和答案不应被丢弃，因为它们包含有关系统行为和用户偏好的宝贵信息。
成本应不断跟踪和审查。
需要持续评估 RAG 管道，以确保 LLM 响应准确，并为它们提供足够的背景信息来回答这些问题。

那么，究竟如何实现这一点？将 RAG 管道投入生产时需要考虑哪些模式和实践？可以理解，这是一个非常广泛的主题，但我们将从高层次介绍这些考虑因素，以鼓励进一步阅读和探索。

RAG 性能和监控

在构建 RAG 管道时，确定适合你用例的正确提示技术至关重要，因为它可能是真实而有价值的答案与误导性和令人沮丧的答案之间的区别。因此，快速开发需要对基础数据和基准测试框架有充分的了解，该框架可以客观地衡量 LLM 答案并严格根据事实对其进行测试。选择基准测试框架不仅依赖于了解哪些指标很重要，而且还依赖于了解这些指标需要如何衡量。一旦投入生产，记录所有 LLM 交互就成为 RAG 管道的强制性方面，以确保管理和控制数据点，例如成本、延迟和响应质量。

RAG 基准测试和评估

我们从基准测试和评估开始，因为这必须在交付生产之前进行，以减轻服务质量差或破坏性的风险。有许多基准测试框架可用，所有这些框架通常都围绕来自底层知识体系的问题和基本答案数据集进行调整，这些知识体系将用于 RAG 上下文。选择正确的框架归结为几个关键因素：

该框架应与你团队的技能、你的应用程序代码和你的组织策略兼容。这是一种跨职能集成，应与你的决策保持一致。例如，如果你选择专门利用本地托管的 LLM，那么框架应该适应这一点。
你需要灵活地选择对你来说很重要的评估指标。
生成的评估输出应该易于集成到你现有的可观察性或安全性工具中，因为 LLM 是它们所用应用程序的关键功能，不应被视为单独的系统。

这些问题/答案对代表对数据和用例的基本理解，并将用于评估整个管道的性能。重要的是，问题集应包含用户最有可能提出的相关问题，或者至少是用户最有可能提出的问题类型。答案不应是简单地从文档中剪切和粘贴，而应是一个或多个事实的总结，这些事实足以回答问题，因为这正是 LLM 可能在回答问题时生成的。

基准问题将通过 RAG 管道传递，并生成两个输出以告知任何评估指标：LLM 响应和上下文。在大多数情况下，除了测量答案的语义相似性之外，框架还会根据基准数据集中的答案评估 LLM 响应的准确性或正确性。还可以将答案与上下文进行比较，以确保其包含的任何陈述都可以基于问题得出的搜索结果。可以通过考虑基准、上下文和问题来计算答案的相关性，从而应用进一步的指标。

尽管 RAG 基准旨在出于功能原因衡量答案的质量，但实施预生产阶段可以显著降低幻觉、偏见甚至训练数据中毒的风险，因为基准数据集代表绝对真实并将突出显示 LLM 输出中的不规则之处。

RAG 日志记录

LLM 可能确实不会生成有关其如何生成内容的日志文件，但这并不意味着无法记录与 LLM 交互的宝贵细节。决定需要记录什么取决于对你的业务而言什么是重要的，但至少应该捕获以下数据：

用户提供的推动交互的问题（例如，我每年可以获得多少 PTO？）
LLM 生成的答案（例如“...根据政策，你每年有权获得 23 天的 PTO，来源：人力资源政策，第 10 页。”）
提交给 LLM、第一次回复和 LLM 完成回复的时间戳。
提交和第一次响应之间的延迟
LLM 模型名称、版本和提供商
调用时配置的 LLM 模型温度（用于调试幻觉）
端点或实例（用于区分生产和开发）

此外，你可能会发现以下字段很有用：

提示和答案的成本，以代币为单位衡量，并基于模型提供商提供的单位成本
正在促进的业务工作流程（客户支持、工程知识库等）
提交给 LLM 的提示（带或不带上下文，因为你可能希望将上下文提取到单独的字段中，这有助于调试或排除答案语气、幻觉和准确性故障。）
LLM 响应的情绪（这可以通过运行情绪模型来实现）

即使在你的 RAG 管道达到生产状态之前，记录运营数据也至关重要，以消除任何潜在的盲点，充分管理成本和客户满意度，并验证基准测试中观察到的结果是否在现实世界中得到复制。

创建统一的 RAG 数据平台

新兴技术中最常见的模式之一是针对每个细微需求使用多种工具。单点解决方案往往能满足系统的一项需求，但需要系统所有者或架构师为其余需求寻找解决方案。这本身并不坏，因为试图满足太多不同的目标可能会导致无法完全满足其中任何一个目标。然而，当你考虑到数据是任何系统中最有价值的资产时，将数据集中到一个统一的平台确实会让你的最宝贵资产更易于使用和管理。当使用来自大型系统其他部分的数据提供的上下文来分析数据时，就会出现新的见解和意义。

适用于 RAG 的 Elastic Search AI 框架

Elastic 可以作为基础数据层，在单一平台上解决 RAG 管道的所有数据输入和输出问题，包括性能和监控框架生成的数据。下面是一个功能架构，代表了 Elastic 如何促进 RAG 管道的每个步骤。

Elastic Search AI 平台的独特之处在于，它能够通过利用以下功能满足管道的功能需求：

Elastic 是用于 GenAI 上下文构建的最佳存储和检索引擎。可以在单个 API 端点内灵活地使用词汇和语义搜索功能，允许 RBAC 实施和复杂的重新排名功能，以实现有效的上下文窗口。
Elastic 是全球无数项目和团队的事实标准日志记录平台，并作为 Elastic Observability 和 Elastic Security 解决方案的底层数据平台。添加 LLM 日志记录数据只需利用此本机功能即可。
Elastic Search AI 平台能够托管将内容向量化所需的转换器模型，以便使其在语义上可搜索，而无需外部模型托管工具和服务。这是通过利用 Elastic 提供的 ELSER 稀疏向量模型以及启用自定义模型导入来实现的。
Elastic 可以用作基准测试设置数据的内容存储，包括问题、答案和基本事实 - 允许使用与 RAG 管道相同的库来实现评估框架，从而进一步降低复杂性并确保测试框架与应用程序实现保持一致。
Elastic 作为基准测试数据目标，可以进行细粒度分析和全面可视化结果。这些基准测试结果还可以与实时日志数据相结合，以表示整体管道健康状况并识别功能偏差，这可以进一步利用 Elastic 的警报功能来确保不会遗漏任何异常。
最后，Elastic 可以轻松汇总常见问题，以更好地告知基准测试配置，使其与现实世界数据紧密结合。鉴于基准测试实际上是一种回归活动，这一步对于确保其可信和相关至关重要。了解用户最常问的问题还可以缓存这些答案以获得即时响应，从而无需参考 LLM。

由于所有数据都记录在 Elastic 中，因此可视化、仪表板和警报的配置都简单且快捷，为你的团队提供了顺利且主动地运行管道所需的可视性。

结论

经过深思熟虑和深思熟虑地实施 RAG 可以获得很多好处，但如果不考虑 RAG 管道的持续管理生命周期，许多好处都可能被抵消。Elastic Search AI 平台简化了强大且安全的 RAG 管道的部署，支持 GenAI 的采用，同时最大限度地降低与这些早期技术相关的风险。请务必立即注册 Elastic Cloud 的免费试用版，以使用 Elastic Search AI 平台将你的 GenAI 想法尽快、轻松地投入生产。

准备好自己尝试了吗？开始免费试用。
希望将 RAG 构建到你的应用程序中？想要尝试使用向量数据库的不同 LLMs？
查看我们在 Github 上针对 LangChain、Cohere 等的示例笔记本，并立即加入 Elasticsearch Relevance Engine 培训。

原文：Retrieval Augmented Generation in production: Operationalize your GenAI project — Elastic Search Labs