微博聚类文本分析和可视化

本文使用python抓取微博数据并对微博文本分析和可视化,LDA(树图)、关系图、词云、时间趋势(折线图)、热度地图、词典情感分析(饼图和3D柱状图)、词向量神经网络情感分析、tfidf聚类、词向量聚类、关键词提取、文本相似度分析等。

数据预处理

  1. prepro.py、pre_graph.py、senti_pre.py

    为了应对各种分析需求,需要数据预处理,具体所需数据文件类型和输出的结果数据结构见这三个py文件

    PS:

    prepro.py 运行时根据需要修改123、143、166行三处代码

    pre_graph.py 运行时根据需要修改127、140行两处代码

    senti_pre.py 运行时根据需要修改第119行代码

  2. zh_wiki.py、langconv.py

    这两个py文件是用于繁体转简体的无需修改

    数据分析和可视化
    词云:wc.py(需要跑完prepro.py)

    根据需要修改3、19、26行代码

    热度地图: map.py(需要跑完prepro.py)

    根据需要修改第8行代码


    转发、评论、点赞时间序列: line.py(需要跑完senti_pre.py 和 senti_analy.py)


    微博评论关系图: graph.py(需要跑完pre_graph.py)

    (参考)


    文本聚类: cluster_tfidf.py 和 cluster_w2v.py(需要跑完prepro.py)

    LDA主题模型分析: LDA.py(需要跑完senti_pre.py)tree.py(需要跑完senti_analy.py)


    情感分析(词典): senti_analy.py(需要跑完senti_pre.py)3Dbar.py(需要跑完senti_analy.py)pie.py(需要跑完senti_analy.py)


    情感分析(W2V+LSTM):Sentiment-Analysis-master文档中的senti_lstm.py(需要跑完senti_pre.py)

情感分析:

最近更新

  1. TCP协议是安全的吗?

    2024-04-20 15:36:05       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-20 15:36:05       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-20 15:36:05       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-20 15:36:05       18 阅读

热门阅读

  1. 开发语言漫谈-PHP

    2024-04-20 15:36:05       15 阅读
  2. Django中如何实现防御CSRF攻击呢

    2024-04-20 15:36:05       19 阅读
  3. 开发语言漫谈-go

    2024-04-20 15:36:05       16 阅读
  4. docker配置项目镜像

    2024-04-20 15:36:05       14 阅读
  5. 算法 第45天 动态规划7

    2024-04-20 15:36:05       14 阅读
  6. 美食节目:视觉盛宴如何唤醒沉睡的食欲

    2024-04-20 15:36:05       15 阅读
  7. 带你认识Selenium函数

    2024-04-20 15:36:05       13 阅读
  8. 华为配置 dhcp snooping

    2024-04-20 15:36:05       13 阅读
  9. Yarn--npm Windows安装使用

    2024-04-20 15:36:05       14 阅读