《向量数据库指南——将传统稀疏向量Milvus Cloud与上下文信息相结合

2024-07-19 09:28:04
开发
22

学习得到的稀疏向量：将传统稀疏向量与上下文信息相结合

结合 Out-of-Domain 检索的精确词匹配技术，如词袋模型和 BERT 等稠密向量检索方法进行语义检索，长期以来一直是信息检索领域的一项主要任务。幸运的是，出现了新的解决方法：学习得到的稀疏 embedding。

那么，到底什么是学习得到的稀疏 embedding 向量呢？

学习得到的稀疏 embedding 指的是通过复杂的 ML 模型（如 SPLADE 和 BGE-M3 等）生成的稀疏向量表示。与仅依赖于统计方法（如 BM25）生成的传统稀疏向量不同，学习得到的稀疏 embedding 在保留关键词搜索能力的同时，丰富了稀疏表示的上下文信息。它们能够辨识相邻或相关词语的重要性，即使这些词语在文本中没有明确出现。最终生成一种擅长捕捉相关关键词和类别的“学习得到的”稀疏表示。

以 SPLADE 为例。在编码给定文本时，SPLADE 生成的稀疏 embedding 形式为 token-to-weight 映射，例如：

  {"hello": 0.33, "world": 0.72}

乍看之下，这些 embedding 与由统计方法生成的传统稀疏 embedding 类似。然而，它们的组成有一个关键区别：维度（词汇）和权重。带有上下文化信息的机器学习模型决定了学习型稀疏 embedding

原文地址:https://blog.csdn.net/qinglingye/article/details/140447419 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1814109918068871168.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

《向量数据库指南——将传统稀疏向量Milvus Cloud与上下文信息相结合

相关推荐

最近更新

热门阅读