NLP--词袋模型

       词袋模型如同所有单词打散放到一个袋子中,因此这种模型无法估计语义和语序问题,每个单词都是独立的。

1.文本分词:调用jieba库,使用精确模式对每个句子进行分词,并存入列表。

2.去除停用词:遍历停用词文件的每一行,删除字符串头和尾的空白字符(包括\n,\r,\t等),加到停用词集合里。然后遍历分词后列表的每一行,再遍历每一行的每一个单词,如果该单词不在停用词集合里,就把该单词放入新的行列表中,最后将所有行列表存入文本列表中。

3.建立文本词典:去除停用词,建立总词典,使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型:for语句建立词袋模型,只包含0和1。

5.词袋模型局限性:维度灾难,向量中大量元素为0,没有考虑词与词之间的顺序和结构信息,存在语义鸿沟的问题。

 

 

相关推荐

  1. NLP-模型

    2024-06-07 13:42:04       32 阅读
  2. NLP--模型

    2024-06-07 13:42:04       7 阅读
  3. 初识人工智能---------自然语言处理&&模型

    2024-06-07 13:42:04       16 阅读
  4. NLP(11)--向量

    2024-06-07 13:42:04       12 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-07 13:42:04       19 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-07 13:42:04       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-07 13:42:04       20 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-07 13:42:04       20 阅读

热门阅读

  1. 【力扣】合并k个升序链表

    2024-06-07 13:42:04       8 阅读
  2. python-NLP常用数据集0.1.012

    2024-06-07 13:42:04       10 阅读
  3. 知识蒸馏——讨论区

    2024-06-07 13:42:04       7 阅读
  4. stm32 h5 串口采用DMA循环BUFF接收数据

    2024-06-07 13:42:04       5 阅读
  5. 用 Sentence Transformers v3 训练和微调嵌入模型

    2024-06-07 13:42:04       9 阅读
  6. 解决跨域问题

    2024-06-07 13:42:04       7 阅读
  7. 供应链管理是什么?能解决什么问题?

    2024-06-07 13:42:04       7 阅读
  8. 分布式防止重复请求或者高并发防止重复提交

    2024-06-07 13:42:04       8 阅读
  9. Flutter与iOS原生混合开发 iOS项目集成Flutter

    2024-06-07 13:42:04       9 阅读
  10. KNN算法实例_电影类型判断

    2024-06-07 13:42:04       7 阅读
  11. C++中为什么尽量使用using 代替 typedef

    2024-06-07 13:42:04       8 阅读
  12. Vue 组件之间的通信

    2024-06-07 13:42:04       7 阅读
  13. 连续分配存储管理方式

    2024-06-07 13:42:04       6 阅读