文档分割和文档词向量化的几种实现方式

        即前一篇文章,基于gensim实现文档词向量化之外。本文主要基于大模型,或调用大模型API实现文档的分割和文档词的向量化,类似于word2vec机制,大家在未来做相关分析、情感分析、文字生成、智能推荐等方面,都需要先将已管理的文档进行分割和向量化,文本分割是为了将大的篇幅变短,变为以核心关键词为主的list,向量化是将关键词组合的文档进行矢量化表征,目的是为了借助计算机实现数学方面的运算处理。目前基于大模型主要有以下三种方式实现向量化。

  • HuggingFace 中开源模型下载和本地部署,通过本地化部署调用生成 embedding,可自定义合适的模型,可玩性较高,但对本地的资源要求高,部署环境要求高。
  • zhupiai/openAI 在线模型API调用,但需要消耗 api,通过在线模型API来生成 embedding,对于大量的token 来说成本会比较高,本地配置要求比较低,使用非常方便。
  • 采用其他平台的 api,如文心一言等。对于无法获取 openAI key 情况下,推荐采纳这种方法。
    具体环境和应用示例如下,供大家学习参考。
一、运行环境:

python3.10环境,安装了sklearn、unstructured、PyMuPDFLoader、zhipuai、openai等。

二、应用示例:

实现多段文本的自动分词,之后基于本地大模型或者调用在线大模型API实现关键词的矢量化。完整代码如下。
1.文档分割

相关推荐

  1. 文档分割文档量化实现方式

    2024-02-19 01:28:01       62 阅读
  2. 【DevOps】OpenVPN 实现分流方法实战

    2024-02-19 01:28:01       57 阅读
  3. 前端下载文件方式(url方式文件方式)

    2024-02-19 01:28:01       45 阅读
  4. Vue中下载不同文件方式

    2024-02-19 01:28:01       67 阅读
  5. C/C++ 读取配置文件方式

    2024-02-19 01:28:01       38 阅读
  6. Hive中小文件过多处理方式

    2024-02-19 01:28:01       37 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-19 01:28:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-19 01:28:01       100 阅读
  3. 在Django里面运行非项目文件

    2024-02-19 01:28:01       82 阅读
  4. Python语言-面向对象

    2024-02-19 01:28:01       91 阅读

热门阅读

  1. go-zero/grpc的rpc服务间传递额外数据

    2024-02-19 01:28:01       62 阅读
  2. linux 中date 命令的用法

    2024-02-19 01:28:01       54 阅读
  3. MySQL正则表达式

    2024-02-19 01:28:01       63 阅读
  4. vue3-使用 Vue 的多种方式

    2024-02-19 01:28:01       52 阅读
  5. 2024年2月新加坡-马来西亚游-简记

    2024-02-19 01:28:01       53 阅读
  6. 学习Android的第十二天

    2024-02-19 01:28:01       49 阅读
  7. C# 只允许开启一个exe程序

    2024-02-19 01:28:01       49 阅读
  8. [C++] 分支优化

    2024-02-19 01:28:01       49 阅读
  9. Leetcode-1523. 在区间范围内统计奇数数目

    2024-02-19 01:28:01       50 阅读