基于向量数据库搭建自己的搜索引擎

前言【基于chatbot】

厌倦了商业搜索引擎搜索引擎没完没了的广告,很多时候,只是需要精准高效地检索信息,而不是和商业广告“斗智斗勇”。以前主要是借助爬虫工具,而随着技术的进步,现在有了更多更方便的解决方案,向量数据库就是其中之一【chatGPT也需要它的支撑】。

环境搭建【工作环境为windows10,数据库环境为centos7】

1. 安装python3.9【具体参考以下文章】

零基础小白安装python开发环境

2. 安装git【网上教程太多了,就不写了。有需要的可以留言】

3. 安装docker和docker-compose【网上教程太多了,就不写了。有需要的可以留言】

4. 安装milvus

在centos系统中,执行以下命令

wget https://github.com/milvus-io/milvus/releases/download/v2.2.11/milvus-standalone-docker-compose.yml -O docker-compose.yml

启动向量数据库

sudo docker-compose up -d 【-d是后台启动,第一次启动可以不加,有报错的话直接在命令行能看到】

ip和端口号,根据自己的实际情况做调整

图片

下载代码

git clone https://github.com/gitksqc/chatbot.git

安装python虚拟环境

python -m venv venvtest

安装模块

 # 配置国内镜像 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple # 命令行进入到代码所在目录 pip install -r requirements.txt

准备数据集【可以自己用爬虫做数据集】

# 我这里选的是新闻数据集做测试,可以根据自己情况选择https://www.kaggle.com/datasets/ceshine/yet-another-chinese-news-dataset

下载模型​​​​​​​

# 需要合理的上网工具,将模型及配置文件拷贝到项目根目录下的shibing624/text2vec-base-chinese目录中https://huggingface.co/shibing624/text2vec-base-chinese

图片

导入数据​​​​​​​

# 将下载的新闻数据集拷贝到项目根目录下news_collection.csv# 在项目根目录下执行insert.py脚本,等待执行结束python insert.py

运行项目​​​​​​​

# 激活虚拟环境.\venvtest\Scripts\Activate.ps1
# 启动服务 uvicorn main:app --reload

搜索

  1. 打开浏览器 访问http://127.0.0.1:8000【端口号可以自己在代码中设置】

    图片

  2. 输入要搜索的文字,点击搜索【页面没有做排版,主要演示功能】

    图片

到此就结束了,有问题可以留言或私信。

相关推荐

  1. LanceDB:开源向量搜索引擎

    2024-04-04 20:38:03       20 阅读
  2. 自己chatgpt-web(nextchat)

    2024-04-04 20:38:03       44 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-04 20:38:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-04 20:38:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-04-04 20:38:03       82 阅读
  4. Python语言-面向对象

    2024-04-04 20:38:03       91 阅读

热门阅读

  1. 【Python语法实例】-13发牌游戏代码高阶

    2024-04-04 20:38:03       32 阅读
  2. 【Leetcode】279.完全平方数

    2024-04-04 20:38:03       36 阅读
  3. Docker资源管理和分配指南

    2024-04-04 20:38:03       32 阅读
  4. qt实现文本高亮

    2024-04-04 20:38:03       36 阅读
  5. python 自制黄金矿工游戏(设计思路+源码)

    2024-04-04 20:38:03       29 阅读
  6. 【PostgreSQL】- 1.4 PostgreSQL 业务规划(创建 Schema)

    2024-04-04 20:38:03       37 阅读
  7. QT 线程的启动

    2024-04-04 20:38:03       31 阅读
  8. Dockerfile怎么写及运行启动方法

    2024-04-04 20:38:03       32 阅读
  9. 购买飞机票

    2024-04-04 20:38:03       42 阅读
  10. Avalonia笔记5-数据绑定

    2024-04-04 20:38:03       34 阅读