实验3 中文分词

必做题:

  1. 数据准备:academy_titles.txt为“考硕考博”板块的帖子标题,job_titles.txt为“招聘信息”板块的帖子标题,
  2. 使用jieba工具对academy_titles.txt进行分词,接着去除停用词,然后统计词频,最后绘制词云。同样的,也绘制job_titles.txt的词云。
  3. 将jieba替换为pkuseg工具,分别绘制academy_titles.txt和job_titles.txt的词云。要给出每一部分的代码。

效果图

 

代码

import jieba
import re
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt

# 读取academy_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\academy_titles.txt', 'r', encoding='utf-8') as file:
    academy_titles = file.readlines()

# 读取job_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\job_titles.txt', 'r', encoding='utf-8') as file:
    job_titles = file.readlines()

# 将招聘信息与学术信息分开
academy_titles = [title.strip() for title in academy_titles]
job_titles = [title.strip() for title in job_titles]

# 分词、去除停用词、统计词频(对academy_titles)
academy_words = []
for title in academy_titles:
    words = jieba.cut(title)
    filtered_words = [word for word in words if re.match(r'^[\u4e00-\u9fa5]+$', word)]
    academy_words.extend(filtered_words)

请自行补全代码,或者这周五晚上更新完整代码

 

 

相关推荐

  1. NLP(9)--rnn实现中文分词

    2024-03-27 06:06:02       34 阅读
  2. Python 实现一个简单的中文分词处理?

    2024-03-27 06:06:02       39 阅读
  3. NLP基础——中文分词

    2024-03-27 06:06:02       63 阅读
  4. 【NLP】Jieba中文分词

    2024-03-27 06:06:02       24 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-27 06:06:02       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-27 06:06:02       106 阅读
  3. 在Django里面运行非项目文件

    2024-03-27 06:06:02       87 阅读
  4. Python语言-面向对象

    2024-03-27 06:06:02       96 阅读

热门阅读

  1. springboot基本使用六(实现公共字段填充)

    2024-03-27 06:06:02       43 阅读
  2. react native上传二进制图片、视频的方法

    2024-03-27 06:06:02       39 阅读
  3. k8s部署高可用etcd集群(SSL)

    2024-03-27 06:06:02       41 阅读
  4. 关于配置SSL,但是无法使用https访问的问题

    2024-03-27 06:06:02       36 阅读
  5. 字节面试高频百题(三)

    2024-03-27 06:06:02       36 阅读
  6. Mybatis-02

    2024-03-27 06:06:02       36 阅读
  7. 银河麒麟V10 升级openssl

    2024-03-27 06:06:02       47 阅读
  8. datasophon安装apache doris报错

    2024-03-27 06:06:02       38 阅读
  9. 【云开发笔记No.17】Kubernetes(2)

    2024-03-27 06:06:02       42 阅读
  10. 网络协议基础

    2024-03-27 06:06:02       36 阅读
  11. WebSocket:实时通信的黄金标准

    2024-03-27 06:06:02       39 阅读
  12. ACL和NAT

    ACL和NAT

    2024-03-27 06:06:02      45 阅读