检索增强生成(RAG)是一种新兴的 AI 技术栈,通过为大型语言模型(LLM)提供额外的 “最新知识” 来增强其能力。
一、RAG 技术部分:
Embedding 模型:用于将外部文档和用户查询转换成 Embedding 向量
向量数据库:用于存储 Embedding 向量和执行向量相似性检索(检索出最相关的 Top-K 个信息)
提示词工程(Prompt engineering):用于将用户的问题和检索到的上下文组合成大模型的输入
大语言模型(LLM):用于生成回答
二、提升大模型准确率:
RAG 架构可以有效解决 LLM 产生 “幻觉”、生成内容不可靠的问题,RAG 应用中集成 Reranker,
Reranker (重排器)是信息检索(IR)生态系统中的一个重要组成部分,用于评估搜索结果,并进行重新排序,从而提升查询结果相关性。在 RAG 应用中,主要在拿到向量查询(ANN)的结果后使用重排器,能够更有效地确定文档和查询之间的语义相关性,更精细地对结果重排,最终提高搜索质量
重排器在提高检索相关性的同时,也会增加延迟和计算成本。因此,在检索质量、搜索延迟、成本之间进行权衡,重排工具三款:Cohere Rerank 、 BGE Re-Ranker、Jina Reranker
参考:
1、提高 RAG 应用准确度,时下流行的 Reranker 了解一下
提高 RAG 应用准确度,时下流行的 Reranker 了解一下?-腾讯云开发者社区-腾讯云
2、Cohere AI 推出 Rerank 3:旨在优化企业搜索和 RAG(检索增强生成)系统的先进模型
https://medium.com/@bitrise.co.in/cohere-ai-unveils-rerank-3-a-state-of-the-art-model-designed-to-optimize-enterprise-search-and-rag-fe32a2da5533
3、RAG 再添新利器!智源开源最强检索排序模型 BGE Re-Ranker v2.0