《向量数据库指南——将传统稀疏向量Milvus Cloud与上下文信息相结合

学习得到的稀疏向量:将传统稀疏向量与上下文信息相结合

结合 Out-of-Domain 检索的精确词匹配技术,如词袋模型和 BERT 等稠密向量检索方法进行语义检索,长期以来一直是信息检索领域的一项主要任务。幸运的是,出现了新的解决方法:学习得到的稀疏 embedding。

那么,到底什么是学习得到的稀疏 embedding 向量呢?

学习得到的稀疏 embedding 指的是通过复杂的 ML 模型(如 SPLADE 和 BGE-M3 等)生成的稀疏向量表示。与仅依赖于统计方法(如 BM25)生成的传统稀疏向量不同,学习得到的稀疏 embedding 在保留关键词搜索能力的同时,丰富了稀疏表示的上下文信息。它们能够辨识相邻或相关词语的重要性,即使这些词语在文本中没有明确出现。最终生成一种擅长捕捉相关关键词和类别的“学习得到的”稀疏表示。

以 SPLADE 为例。在编码给定文本时,SPLADE 生成的稀疏 embedding 形式为 token-to-weight 映射,例如:

  {"hello": 0.33, "world": 0.72}

乍看之下,这些 embedding 与由统计方法生成的传统稀疏 embedding 类似。然而,它们的组成有一个关键区别:维度(词汇)和权重。带有上下文化信息的机器学习模型决定了学习型稀疏 embedding

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-19 09:28:04       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-19 09:28:04       71 阅读
  3. 在Django里面运行非项目文件

    2024-07-19 09:28:04       58 阅读
  4. Python语言-面向对象

    2024-07-19 09:28:04       69 阅读

热门阅读

  1. W3C SOAP 活动

    2024-07-19 09:28:04       18 阅读
  2. SAP中VF01调用的BAPI是什么,如何使用

    2024-07-19 09:28:04       17 阅读
  3. 富格林:可信攻略击败交易欺诈

    2024-07-19 09:28:04       20 阅读
  4. opencv基础语法

    2024-07-19 09:28:04       18 阅读
  5. 单例设计模式

    2024-07-19 09:28:04       20 阅读
  6. 系统架构师(每日一练4)

    2024-07-19 09:28:04       22 阅读
  7. PTA - 首字母大写(python编程300例)

    2024-07-19 09:28:04       23 阅读