RAG进阶笔记：RAG进阶

2024-03-26 22:56:02
开发
46

1 查询/索引部分

1.1 层次索引

创建两个索引——一个由摘要组成，另一个由文档块组成
分两步进行搜索：首先通过摘要过滤出相关文档，接着只在这个相关群体内进行搜索

1.2 假设性问题

让LLM为每个块生成一个假设性问题，并将这些问题以向量形式嵌入
在运行时，针对这个问题向量的索引进行查询搜索（用问题向量替换文档的块向量）
检索后将原始文本块作为上下文发送给LLM以获取答案
这种方法由于查询和假设性问题之间的语义相似性更高，从而提高了搜索质量

1.3 句子窗口检索

文档中的每个句子都被单独嵌入向量
在检索到的关键句子前后各扩展k个句子，然后将这个扩展的上下文发送给LLM

1.4 父文档检索器（自动合并检索器）

文档被分割成一个层级化的块结构，随后用最小的叶子块进行索引
在检索过程中检索出top k个叶子块
如果存在n个叶子块都指向同一个更大的父块，那么我们就用这个父块来替换这些子块，并将其送入大模型用于生成答案。

1.4 查询扩展

1.4.1 使用生成的答案进行查询扩展

Precise Zero-Shot Dense Retrieval without Relevance Labels

给定输入查询后，这种方法首先会指示 LLM 提供一个假设答案，无论其正确性如何
然后，将查询和生成的答案合并在一个提示中，并发送给检索系统
- 基本目的是希望检索到更像答案的文档。
- 假设答案的正确性并不重要，因为感兴趣的是它的结构和表述

1.3.2 用多个相关问题扩展查询

Query Expansion by Prompting Large Language Models

利用 LLM 生成 N 个与原始查询相关的问题
将所有问题（加上原始查询）发送给检索系统。
通过这种方法，可以从向量库中检索到更多文档。

参考内容：

提升RAG检索质量的三个高级技巧（查询扩展、交叉编码器重排序和嵌入适配器）

原文地址:https://blog.csdn.net/qq_40206371/article/details/137025939 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1772638645904347136.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

RAG进阶笔记：RAG进阶

2024-03-26 22:56:02 47 阅读
verilog语法进阶-分布式ram

2024-03-26 22:56:02 54 阅读
verilog语法进阶-分布式ram原语

2024-03-26 22:56:02 63 阅读
RAG进阶(一): 多重查询(Multi Query)

2024-03-26 22:56:02 32 阅读
kafka进阶笔记

2024-03-26 22:56:02 59 阅读
RAG系统进阶（五）文本分割优化技巧及代码

2024-03-26 22:56:02 35 阅读
RAG进阶：混合稠密检索和知识图谱来提升精度

2024-03-26 22:56:02 23 阅读
高阶RAG-ReRank

2024-03-26 22:56:02 32 阅读
Bash script进阶笔记

2024-03-26 22:56:02 57 阅读
Lua 进阶 · 教程笔记

2024-03-26 22:56:02 43 阅读

最近更新

题解 - 序列

2024-03-26 22:56:02 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-03-26 22:56:02 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-03-26 22:56:02 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-03-26 22:56:02 100 阅读
NoSQL之Redis非关系型数据库

2024-03-26 22:56:02 101 阅读
2024.7.22 作业

2024-03-26 22:56:02 97 阅读
GDB调试正在运行的程序

2024-03-26 22:56:02 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-03-26 22:56:02 85 阅读
在Django里面运行非项目文件

2024-03-26 22:56:02 82 阅读
SSD基本架构与工作原理

2024-03-26 22:56:02 87 阅读
在誉天学习完HCIE就业吗？

2024-03-26 22:56:02 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-03-26 22:56:02 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-03-26 22:56:02 85 阅读
go 协程池的实现

2024-03-26 22:56:02 88 阅读
Shell脚本循环语句与函数

2024-03-26 22:56:02 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-03-26 22:56:02 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-03-26 22:56:02 85 阅读
四大引用——强软弱虚

2024-03-26 22:56:02 86 阅读
Python语言-面向对象

2024-03-26 22:56:02 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-03-26 22:56:02 85 阅读
网站安全-CDN篇

2024-03-26 22:56:02 88 阅读

热门阅读

24.Python从入门到精通—函数标准模块包

2024-03-26 22:56:02 40 阅读
怎么在微信上做小程序卖货：全面指南

2024-03-26 22:56:02 41 阅读
【STM32学习计划】

2024-03-26 22:56:02 37 阅读
龙蜥 Anolis OS 7.9 一键安装 Oracle 11GR2（231017）单机版

2024-03-26 22:56:02 37 阅读
C++语法|C++八股|内存分区、内存对齐、野指针和悬浮指针

2024-03-26 22:56:02 42 阅读
状态机实现单词统计

2024-03-26 22:56:02 38 阅读
TransUNet论文笔记

2024-03-26 22:56:02 37 阅读
黑客（网络安全）技术30天速成

2024-03-26 22:56:02 39 阅读
探索编程语言的发展历程

2024-03-26 22:56:02 49 阅读
【笔记】以论文发表形式通俗理解 TCP/IP模型

2024-03-26 22:56:02 47 阅读
Mysql数据库：日志管理、备份与恢复

2024-03-26 22:56:02 67 阅读
基于Springboot的个人博客系统的设计与实现

2024-03-26 22:56:02 28 阅读
本周重要AI资讯

2024-03-26 22:56:02 35 阅读
目标跟随小车(旭日x3派、yolov5、视觉)

2024-03-26 22:56:02 36 阅读
C++ 如何去认识模板

2024-03-26 22:56:02 38 阅读
数据结构之树习题力扣oj(附加思路版)

2024-03-26 22:56:02 40 阅读
Windows python多版本共享方案

2024-03-26 22:56:02 39 阅读
【竞技宝】DOTA2-PGL联赛：niu神无解 LGD2-0轻松击败DH

2024-03-26 22:56:02 44 阅读
易绘创云打印api开放对接：支持对接第三方App，手机可随时打印

2024-03-26 22:56:02 36 阅读
粘包/半包及解决方案

2024-03-26 22:56:02 36 阅读
【工具类】git log 常用别名，git log 干活，git log常用参数

2024-03-26 22:56:02 39 阅读
智能楼宇3D可视化解决方案

2024-03-26 22:56:02 42 阅读
GVRP实现vlan的自动创建和注册

2024-03-26 22:56:02 43 阅读
Linux 中使用ISO文件作为yum源

2024-03-26 22:56:02 38 阅读
如何使用Docker安装Paperless-ngx系统并实现远程在线搜索查阅文档

2024-03-26 22:56:02 38 阅读
洛谷 P1161 开灯位运算

2024-03-26 22:56:02 37 阅读
OSI 模型

2024-03-26 22:56:02 40 阅读
数据科学与大数据专业毕业设计选题题目100例毕设开题指导篇

2024-03-26 22:56:02 40 阅读
网络基础学习

2024-03-26 22:56:02 34 阅读
pycharm激活码（2023-2024）

2024-03-26 22:56:02 39 阅读