使用RAGAs评估基于Milvus Cloud的RAG应用

2024-07-10 13:26:01
开发
11

现在，我们很容易构建一个基于检索增强生成（RAG）的应用，但将其投入生产却非常困难，因为RAG的性能很难达到令人满意的状态。

我们知道RAG中两个重要的组件：

检索器：从外部数据库中检索额外的上下文，以供LLM回答查询。

生成器：基于使用检索到的信息增强的提示生成答案。

在评估RAG时，我们需要分别评估两个组件以及它们的整体性能，以了解RAG是否仍然需要改进，以及需要在哪里改进。此外，为了评估RAG应用程序的性能是否正在改善，我们需要进行定量评估。为此，我们需要两个评估要素：评估指标和评估数据集。

当前，确定正确的评估指标并收集良好的验证数据是一个活跃的研究领域。涌现出各种用于RAG评估框架的方法，例如RAG Triad of metrics，ROUGE，ARES，BLEU和RAGAs。本文将重点介绍如何使用RAGAs评估RAG系统。

什么是RAGAs

RAGAs（检索增强生成评估）是一个框架，提供了必要的组成部分，以帮助我们在组件粒度评估RAG。

评估数据

关于RAGAs的有趣之处在于，它最初是一个“无参考”评估框架。这意味着，不必依赖于人工注释的真实标签评估数据，RAGAs在幕后利用LLM进行评估。

为评估RAG，RAGAs需要以下信息：

question：作为RAG输入的用户查询。

answer：来自RAG输出的生成答案。

contexts：从用于回答问题的外部知识源中检索到的上下文。

ground_truths：问题的真实答案。这是唯一的人工标注信息。

利用LLM进行无参考评估是一个活跃的研究课题。虽然尽可能少地使用人工注释的数据使其成为一种更便宜和更快速的评估方法，但关于其缺点，如偏见等，仍有一些讨论。一些论文中也展示了一些令人激动的结果。

评估指标

RAGAs提供了一些指标，方便以端到端方式对于RAG进行评估。

在组件级别上，RAGAs提供了评估检索器（context_relevancy和context_recall）和生成器（faithfulness和answer_relevancy）的指标：

Context precision：衡量检索到的上下文的信噪比。此指标使用问题和上下文来计算。

Context

原文地址:https://blog.csdn.net/qinglingye/article/details/140232413 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1810908312200417280.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-10 13:26:01 5 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-10 13:26:01 5 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-10 13:26:01 4 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-10 13:26:01 5 阅读
NoSQL之Redis非关系型数据库

2024-07-10 13:26:01 4 阅读
2024.7.22 作业

2024-07-10 13:26:01 6 阅读
GDB调试正在运行的程序

2024-07-10 13:26:01 3 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-10 13:26:01 3 阅读
在Django里面运行非项目文件

2024-07-10 13:26:01 4 阅读
SSD基本架构与工作原理

2024-07-10 13:26:01 4 阅读
在誉天学习完HCIE就业吗？

2024-07-10 13:26:01 6 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-10 13:26:01 3 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-10 13:26:01 3 阅读
go 协程池的实现

2024-07-10 13:26:01 3 阅读
Shell脚本循环语句与函数

2024-07-10 13:26:01 4 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-10 13:26:01 4 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-10 13:26:01 5 阅读
四大引用——强软弱虚

2024-07-10 13:26:01 4 阅读
Python语言-面向对象

2024-07-10 13:26:01 5 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-10 13:26:01 5 阅读
网站安全-CDN篇

2024-07-10 13:26:01 5 阅读

热门阅读

electron通信与持久化存储

2024-07-10 13:26:01 10 阅读
【踩坑】解决undetected-chromedriver报错cannot connect to-chrome

2024-07-10 13:26:01 9 阅读
Electron Forge 打包更改打包后图片

2024-07-10 13:26:01 11 阅读
简单仿写MVC

2024-07-10 13:26:01 9 阅读
UML2.0-系统架构师（二十四）

2024-07-10 13:26:01 7 阅读
用PlantUML和语雀画UML类图

2024-07-10 13:26:01 10 阅读
Python数据分析-欧洲经济聚类和主成分分析

2024-07-10 13:26:01 10 阅读
新书速览|UML 2.5基础、建模与设计实践

2024-07-10 13:26:01 9 阅读
【ES】--Elasticsearch的高亮模式

2024-07-10 13:26:01 12 阅读
3.2ui功能讲解之graph页面

2024-07-10 13:26:01 8 阅读
JVM专题九：JVM分代知识点梳理

2024-07-10 13:26:01 8 阅读
易基因：番茄果实采后处理成熟诱导的DNA甲基化和转录组综合分析 | 作物研究

2024-07-10 13:26:01 8 阅读
谈谈检测浏览器类型

2024-07-10 13:26:01 7 阅读
认识软件测试

2024-07-10 13:26:01 9 阅读
如何利用GPT-4o生成有趣的梗图

2024-07-10 13:26:01 12 阅读
npm 常用命令详解与实践

2024-07-10 13:26:01 11 阅读
kafka线上问题：rebalance

2024-07-10 13:26:01 9 阅读
node.js 面试题 1

2024-07-10 13:26:01 7 阅读
利用swift框架微调面壁小钢炮2.0

2024-07-10 13:26:01 14 阅读
快速上手golang（持续更新）

2024-07-10 13:26:01 9 阅读
Eureka应用场景和优势

2024-07-10 13:26:01 10 阅读
车载聚合路由器应用场景分析

2024-07-10 13:26:01 11 阅读
【靶机实战】Apache Log4j2命令执行漏洞复现

2024-07-10 13:26:01 10 阅读
【代码随想录训练营】【Day 66】【图论-3】| 卡码 101-104

2024-07-10 13:26:01 11 阅读
AWS无服务器应用程序开发—第十七章 Application Composer

2024-07-10 13:26:01 11 阅读
数据结构题目：模式匹配的BF算法

2024-07-10 13:26:01 9 阅读
图论---匈牙利算法求二分图最大匹配的实现

2024-07-10 13:26:01 9 阅读
Python 中创建当前日期和时间的文件名技巧详解

2024-07-10 13:26:01 11 阅读
【STM32/HAL】嵌入式课程设计：简单的温室环境监测系统|DS18B20 、DHT11

2024-07-10 13:26:01 10 阅读
ESP32-C3模组上跑通AES-GCM（5）

2024-07-10 13:26:01 9 阅读