Milvus向量数据库

AI大模型项目实战v0.3版本中，会引入Milvus向量数据库。这里提前介绍一下

Milvus是什么？
Milvus如何安装？
如何使用Python运行Milvus?

Milvus是什么？

Milvus于2019年创建，目标是存储、索引和管理由深度神经网络和其他机器学习（ML）模型生成的大量嵌入向量。

作为一个专门设计用于处理输入向量查询的数据库，它能够索引万亿级别的向量。与主要处理遵循预定义模式的结构化数据的现有关系数据库不同，Milvus从底层设计用于处理从非结构化数据转换而来的嵌入向量。

随着互联网的发展和演变，非结构化数据变得越来越普遍，包括电子邮件、论文、物联网传感器数据、Facebook照片、蛋白质结构等。为了让计算机理解和处理非结构化数据，这些数据被转换成向量。Milvus存储和索引这些向量。Milvus能够通过计算两个向量之间的相似度距离来分析它们之间的相关性。如果两个嵌入向量非常相似，这意味着原始数据源也很相似。

主要概念

非结构化数据
非结构化数据，包括图像、视频、音频和自然语言，是不遵循预定义模型或组织方式的信息。这种数据类型占全球数据的约80%，可以使用各种人工智能（AI）和机器学习（ML）模型转换成向量。

嵌入向量
嵌入向量是非结构化数据的特征抽象，如电子邮件、物联网传感器数据、Instagram照片、蛋白质结构等。从数学上讲，嵌入向量是一个浮点数或二进制数的数组。现代嵌入技术用于将非结构化数据转换成嵌入向量。

向量相似性搜索
向量相似性搜索是将一个向量与数据库进行比较，以找到与查询向量最相似的向量的过程。使用近似最近邻（ANN）搜索算法来加速搜索过程。如果两个嵌入向量非常相似，这意味着原始数据源也很相似。

为什么选择Milvus？

在处理大规模数据集的向量搜索时表现出高性能。
一个以开发者为先的社区，提供多语言支持和工具链。
即使在中断事件中也具有云可扩展性和高可靠性。
通过将标量过滤与向量相似性搜索相结合，实现混合搜索。

支持哪些索引和度量标准？

索引是数据的组织单位。在进行搜索或查询插入的实体之前，您必须声明索引类型和相似性度量。如果您不指定索引类型，Milvus将默认进行暴力搜索。

索引类型

Milvus支持的大多数向量索引类型使用近似最近邻搜索（ANNS），包括：

FLAT：FLAT最适合在小型、百万级数据集上寻求完全准确和精确搜索结果的场景。
IVF_FLAT：IVF_FLAT是基于量化的索引，最适合寻求在准确性和查询速度之间取得理想平衡的场景。还有一个GPU版本GPU_IVF_FLAT。
IVF_SQ8：IVF_SQ8是基于量化的索引，最适合寻求显著减少磁盘、CPU和GPU内存消耗的场景，因为这些资源非常有限。
IVF_PQ：IVF_PQ是基于量化的索引，最适合寻求高查询速度，即使以牺牲准确性为代价的场景。还有一个GPU版本GPU_IVF_PQ。
HNSW：HNSW是基于图的索引，最适合对搜索效率有高要求的场景。

相似性度量

在Milvus中，相似性度量用于测量向量之间的相似性。选择一个好的距离度量可以显著提高分类和聚类性能。根据输入数据形式，选择特定的相似性度量以获得最佳性能。
广泛用于浮点嵌入的度量包括：

欧几里得距离（L2）：该度量通常用于计算机视觉（CV）领域。
内积（IP）：该度量通常用于自然语言处理（NLP）领域。

广泛用于二进制嵌入的度量包括：

汉明距离（Hamming）：这个度量标准通常用于自然语言处理(NLP)领域。
杰卡德距离（Jaccard）：这个度量标准通常用于分子最近邻搜索领域。

应用程序示例

Milvus 可以很容易地为应用程序添加最近邻搜索，例如:

图像相似搜索: 图像可以被搜索，并且可以从大量的数据库中即时返回最相似的图像。
视频相似搜索: 通过将关键帧转换为矢量，然后将结果输入 Milvus，数十亿的视频可以在近乎实时的情况下被搜索和推荐。
音频相似搜索: 快速查询大量的音频数据，如语音、音乐、音效和表面类似的声音。
推荐系统: 根据用户行为和需求推荐信息或产品。
问答系统: 交互式数字 QA 聊天机器人，自动回答用户的问题。
DNA 序列分类: 通过比较相似的 DNA 序列，以毫秒为单位精确地对基因进行分类。
文本搜索引擎: 通过将关键字与文本数据库进行比较，帮助用户找到他们正在查找的信息。

Milvus如何安装？

Milvus有多种安装方法，详情可以参考：https://milvus.io/docs/install_standalone-docker.md
今天介绍基于Docker Compose（CPU）的安装方法

安装docker
安装docker compose
安装milvus

Docker安装

sudo apt install -y docker.io       # 安装Docker Engine

apt install直接安装docker，使用 -y 参数来避免确认，实现自动化操作

sudo service docker start           # 启动docker 服务 
sudo usermod -aG docker ${USER}     # 当前用户加入docker组

第一个 service docker start 是启动 Docker 的后台服务，第二个 usermod -aG 是把当前的用户加入 Docker 的用户组。这是因为操作 Docker 必须要有 root 权限，而直接使用 root 用户不够安全，加入 Docker 用户组是一个比较好的选择，这也是 Docker 官方推荐的做法。当然，如果只是为了图省事，你也可以直接切换到 root 用户来操作 Docker。

上面的三条命令执行完之后，我们还需要退出系统（命令 exit ），再重新登录一次，这样才能让修改用户组的命令 usermod 生效。

验证docker 是否安装成功
docker version 会输出 Docker 客户端和服务器各自的版本信息

docker info 会显示当前 Docker 系统相关的信息，例如 CPU、内存、容器数量、镜像数量、容器运行时、存储文件系统等等.

Docker-Compose安装

按顺序运行以下命令

sudo curl -SL https://github.com/docker/compose/releases/download/v2.23.3/docker-compose-linux-x86_64 -o /usr/local/bin/docker-compose   
sudo chmod +x /usr/local/bin/docker-compose    
sudo ln -s /usr/local/bin/docker-compose /usr/bin/docker-compose

安装完成之后，来看一下它的版本号，命令是 docker-compose version，用法和 docker version 是一样的：

Milvus安装

下载YAML文件
下载milvus-standalone-docker-compose.yml文件，并改名成docker-compose.yml

wget https://github.com/milvus-io/milvus/releases/download/v2.3.4/milvus-standalone-docker-compose.yml -O docker-compose.yml

启动Milvus
在与 docker-compose. yml 文件相同的目录中，运行以下命令启动 Milvus:

sudo docker-compose up -d

检查容器是否已经启动并运行。
sudo docker-compose ps

连接Milvus

验证 Milvus 服务器正在监听哪个本地端口。将容器名称替换为您自己的。

docker port milvus-standalone 19530/tcp

可以使用此命令返回的本地 IP 地址和端口号连接到 Milvus。

停止Milvus服务

sudo docker-compose down

停止Milvus后，删除数据

sudo rm -rf  volumes

如何使用Python运行Milvus？

准备工作：

Milvus: 上一步已经安装好
Python3：Linux默认已经安装好
PyMilvus：运行pip install pymilvus安装

下载示例代码

wget https://raw.githubusercontent.com/milvus-io/pymilvus/master/examples/hello_milvus.py

示例代码解释

导入 PyMilvus 包

from pymilvus import (
    connections,
    utility,
    FieldSchema,
    CollectionSchema,
    DataType,
    Collection,
)

连接服务

connections.connect("default", host="localhost", port="19530")

创建一个集合

fields = [
    FieldSchema(name="pk", dtype=DataType.INT64, is_primary=True, auto_id=False),
    FieldSchema(name="random", dtype=DataType.DOUBLE),
    FieldSchema(name="embeddings", dtype=DataType.FLOAT_VECTOR, dim=8)
]
schema = CollectionSchema(fields, "hello_milvus is the simplest demo to introduce the APIs")
hello_milvus = Collection("hello_milvus", schema)

在集合中插入向量

import random
entities = [
    [i for i in range(3000)],  # field pk
    [float(random.randrange(-20, -10)) for _ in range(3000)],  # field random
    [[random.random() for _ in range(8)] for _ in range(3000)],  # field embeddings
]
insert_result = hello_milvus.insert(entities)
hello_milvus.flush()

在实体上生成索引

index = {
    "index_type": "IVF_FLAT",
    "metric_type": "L2",
    "params": {"nlist": 128},
}
hello_milvus.create_index("embeddings", index)

将集合加载到内存并执行向量相似性搜索

hello_milvus.load()
vectors_to_search = entities[-1][-2:]
search_params = {
    "metric_type": "L2",
    "params": {"nprobe": 10},
}
result = hello_milvus.search(vectors_to_search, "embeddings", search_params, limit=3, output_fields=["random"])

执行向量查询

result = hello_milvus.query(expr="random > -14", output_fields=["random", "embeddings"])

执行混合搜索

result = hello_milvus.search(vectors_to_search, "embeddings", search_params, limit=3, expr="random > -12", output_fields=["random"])

按照实体的主键删除实体

expr = f"pk in [{entities[0][0]}, {entities[0][1]}]" hello_milvus.delete(expr)

删除集合

utility.drop_collection("hello_milvus")

运行示例代码

python3 hello_milvus.py

返回的结果和查询延迟如下所示：

=== start connecting to Milvus     ===

Does collection hello_milvus exist in Milvus: False

=== Create collection `hello_milvus` ===


=== Start inserting entities       ===

Number of entities in Milvus: 3000

=== Start Creating index IVF_FLAT  ===


=== Start loading                  ===


=== Start searching based on vector similarity ===

hit: (distance: 0.0, id: 2998), random field: -11.0
hit: (distance: 0.11455299705266953, id: 1581), random field: -18.0
hit: (distance: 0.1232629269361496, id: 2647), random field: -13.0
hit: (distance: 0.0, id: 2999), random field: -11.0
hit: (distance: 0.10560893267393112, id: 2430), random field: -18.0
hit: (distance: 0.13938161730766296, id: 377), random field: -14.0
search latency = 0.2796s

=== Start querying with `random > -14` ===

query result:
-{'pk': 9, 'random': -13.0, 'embeddings': [0.298433, 0.931987, 0.949756, 0.598713, 0.290125, 0.094323, 0.064444, 0.306993]}
search latency = 0.2970s

=== Start hybrid searching with `random > -12` ===

hit: (distance: 0.0, id: 2998), random field: -11.0
hit: (distance: 0.15773043036460876, id: 472), random field: -11.0
hit: (distance: 0.3273330628871918, id: 2146), random field: -11.0
hit: (distance: 0.0, id: 2999), random field: -11.0
hit: (distance: 0.15844076871871948, id: 2218), random field: -11.0
hit: (distance: 0.1622171700000763, id: 1403), random field: -11.0
search latency = 0.3028s

=== Start deleting with expr `pk in [0, 1]` ===

query before delete by expr=`pk in [0, 1]` -> result: 
-{'pk': 0, 'random': -18.0, 'embeddings': [0.142279, 0.414248, 0.378628, 0.971863, 0.535941, 0.107011, 0.207052, 0.98182]}
-{'pk': 1, 'random': -15.0, 'embeddings': [0.57512, 0.358512, 0.439131, 0.862369, 0.083284, 0.294493, 0.004961, 0.180082]}

query after delete by expr=`pk in [0, 1]` -> result: []


=== Drop collection `hello_milvus` ===