文本检索粗读

2024-04-14 11:00:05
开发
18

一.前情提要

1.本文理论为主，并且仅为个人理解，能力一般，不喜勿喷

2.本文理论知识较为散碎

3.如有需要，以下是原文，更为完备

Neural Corpus Indexer 文档检索【论文精读·47】_哔哩哔哩_bilibili

二.正文

（本文争议较大，因为作者在实验的时候把测试集和训练集搞混了一部分造成实验数据精度很高）

1.通过端到端的神经网络，把训练和检索放到一起，能有效提高召回率。本文提出NCI的方法，这是一种基于sequence到sequence的网络，能直接针对特定文档返回ID

2.检索常用具体方法

①将查询和文档组成一对，再去计算相关性（最大的缺点就是价格昂贵），在你搜索某个单词，比如torch的时候，torch，这个单词是一串数字，它会遍历整个文件，找到符合条件的返回出来的就是torch,而不是数字

②有一种方法是基于语义的，会把document query映射为一个向量，这是一个embedding层

③本项目使用two tower来进行学习，如下图

（该图最上方长方形框是对query和document都抽象出一个特点）

(但是这仍然具有缺点，缺点是单一向量的话，它会出现相错误的结果，比如苹果14和苹果13在搜索上是一样的)

④使用了ANN搜索，若为复杂搜索则不适用

具体算法简化如下:

将文本和ID对成一对，让神经网络记忆。并且query和doc会关联

⑤整体流程

正上方该框代表组合后进入encoder

⑥层次来源

先整体k-mens聚类分为1，2，3，然后再提取关键特征，如图所示，11 12前面那个1就是关键特征，简而言之，就是先大分类，再不断小分类(并且因为是随机采样，所以多样性会好一点)

⑦

原本的输入如上图，但是作者认为持续性不够，所以自己人为添加了位置信息，比如原来是3 4 5 添加为13 14 15，并且他改变了共享权重，使之不一样，并且使用了额外编码器，来解决这一问题。（r0,r1等为输入）

⑧具体公式如下图

原文地址:https://blog.csdn.net/omit250/article/details/137734650 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1779343841627869184.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

文本检索粗读

2024-04-14 11:00:05 19 阅读
DETR论文粗读

2024-04-14 11:00:05 16 阅读
信息检索（21--26）：文章速读摘要版

2024-04-14 11:00:05 14 阅读
Qt 富文本处理（字体颜色大小加粗等）

2024-04-14 11:00:05 19 阅读
信息检索（十五--二十）：文章速读摘要版

2024-04-14 11:00:05 16 阅读
python-读写文本数据

2024-04-14 11:00:05 12 阅读
Android String.xml 设置加粗字体/修改字体颜色/动态设置修改文案

2024-04-14 11:00:05 39 阅读
【技术类-05】python实现docx段落文字加粗（Win32）

2024-04-14 11:00:05 17 阅读
python文件读写

2024-04-14 11:00:05 19 阅读
Qt文件读写

2024-04-14 11:00:05 16 阅读

热门阅读

7 种实现 CSS 三角形的原理与方法以及三角形在网页设计中的作用

2024-04-14 11:00:05 39 阅读
自动化运维（二十六）Ansible 实战变量插件和连接插件

2024-04-14 11:00:05 19 阅读
HTML 入门 ( 一 )

2024-04-14 11:00:05 13 阅读
旺旺照妖镜api接口

2024-04-14 11:00:05 16 阅读
linux如何使 CPU使用率保持在指定百分比？

2024-04-14 11:00:05 14 阅读
矩阵置零的三种解法

2024-04-14 11:00:05 15 阅读
keepalived脑裂问题

2024-04-14 11:00:05 13 阅读
chromedriver最新版下载地址

2024-04-14 11:00:05 13 阅读
pytorch 今日小知识1——torch.set_printoptions

2024-04-14 11:00:05 12 阅读
【C语言基础】：预处理详解(一)

2024-04-14 11:00:05 12 阅读
docker网络

2024-04-14 11:00:05 14 阅读
R语言: mlr3机器学习--生存分析

2024-04-14 11:00:05 14 阅读
从零开始：如何使用Docker构建微服务架构

2024-04-14 11:00:05 18 阅读
Pytorch中的钩子函数Hook函数

2024-04-14 11:00:05 15 阅读
C++实现桥接模式代码

2024-04-14 11:00:05 15 阅读
PyTorch中 Datasets & DataLoader 的介绍

2024-04-14 11:00:05 16 阅读
HackMyVM-Gift

2024-04-14 11:00:05 15 阅读
单独使用YOLOV9的backbone网络

2024-04-14 11:00:05 19 阅读
修复 Windows 上的 PyTorch 1.1 github 模型加载权限错误

2024-04-14 11:00:05 16 阅读
软件设计模式（Golang）

2024-04-14 11:00:05 37 阅读
LeetCode-热题100：146. LRU 缓存

2024-04-14 11:00:05 14 阅读
2024.4.12 驱动开发

2024-04-14 11:00:05 17 阅读
怎么快速围绕“人、货、场”做零售数据分析？

2024-04-14 11:00:05 18 阅读
node.js+vue计算机毕业设计毕业生管理系统（附源码+程序+mysql+Express）

2024-04-14 11:00:05 20 阅读
03 Git 之远程仓库 + IDEA 集成使用 GitHub

2024-04-14 11:00:05 15 阅读
docker nginx-lua发送post json 请求

2024-04-14 11:00:05 21 阅读
$入门：多层感知器Multiple-Layer Perceiver, MLP$

入门：多层感知器Multiple-Layer Perceiver, MLP

2024-04-14 11:00:05 15 阅读
最新视频理解大模型之MiniGPT4-video

2024-04-14 11:00:05 15 阅读
P8683 [蓝桥杯 2019 省 B] 后缀表达式

2024-04-14 11:00:05 18 阅读
RTSP/Onvif视频安防监控平台EasyNVR调用接口返回匿名用户名和密码的原因排查

2024-04-14 11:00:05 20 阅读