LDA主题模型学习笔记

(1)LDA的基本介绍(wiki)

 LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。它以概率分布的形式揭示每个文档的主题,以便在分析一些文档以提取其主题分布后,可以根据主题分布进行主题聚类或使用文本分类。每个主题都用一个词分布表示。
 通俗说就是:你计算机给我推测分析网络上各篇文章分别都写了些啥主题,且各篇文章中各个主题出现的概率大小(主题分布)是啥。其中有四个分布:
①Beta分布是二项式分布的共轭先验概率分布
②狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布
③每一篇文档的主题分布满足多项分布,并且每一个文档的主题分布都是从 α \alpha α这个狄利克雷分布取样而来。
在这里插入图片描述

(2)贝叶斯学派和频率学派

①频率学派:频率学派相信概率是一个确定的值,讨论概率的分布没有意义。在机器学习中的体现就是优化似然函数单纯从自然观测
②贝叶斯学派:概率表示的是客观上事实的可信程度,也可以说成是主观上主体对事件的信任程度,它是建立在对事件的已有认识基础上的
贝叶斯学派强调了先验知识的重要性。所以贝叶斯学派的思考方法如下:先验分布 π ( θ ) \pi(\theta) π(θ)指的是人们先前对事物的看法
在这里插入图片描述

  说白了频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值;贝叶斯派则认为参数是随机值,因为没有观察到,那么和是一个随机数也没有什么区别,因此参数也可以有分布,

(3)LDA模型的“历史演化”(个人理解)

相关推荐

  1. 学习笔记】GAN前沿主题

    2024-03-18 14:34:03       53 阅读
  2. 算法学习笔记LCA

    2024-03-18 14:34:03       28 阅读
  3. LDD学习笔记 -- Linux错误码

    2024-03-18 14:34:03       61 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-18 14:34:03       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-18 14:34:03       106 阅读
  3. 在Django里面运行非项目文件

    2024-03-18 14:34:03       87 阅读
  4. Python语言-面向对象

    2024-03-18 14:34:03       96 阅读

热门阅读

  1. 数字华容道项目总结

    2024-03-18 14:34:03       40 阅读
  2. Git ignore: 忽略与清除

    2024-03-18 14:34:03       44 阅读
  3. 编程语言的生态系统

    2024-03-18 14:34:03       39 阅读
  4. 2024/3/17 TCP的进程和线程通信,模拟面试总结

    2024-03-18 14:34:03       41 阅读
  5. python实现数据可视化大屏

    2024-03-18 14:34:03       37 阅读
  6. Redis常见面试题--基础篇

    2024-03-18 14:34:03       36 阅读
  7. 使用Python和Wireshark进行数据包分析:简易指南

    2024-03-18 14:34:03       43 阅读
  8. 软考高级,高项和架构哪个更容易?

    2024-03-18 14:34:03       44 阅读