朴素贝叶斯 | 多分类问题

2024-03-14 04:46:10
开发
20

在正文开始之前，我们先来了解贝叶斯：
贝叶斯公式是由英国数学家贝叶斯提出，它的提出是为了解决后验概率问题，即：事情已经发生，要求这件事情发生的原因是由某个因素引起的概率的问题；

通俗一点讲：就是“执果寻因”的问题

这里我们相应的补充上先验问题的含义：事情还没有发生，要求这件事情发生的概率

一. 贝叶斯公式的推导

根据条件概率公式，我们可以的到
$P(B|A)=\frac{P(AB)}{P(A)}$
那么，设 $P (A) > 0$ ，则会有：
$P (A B) = P (A ∣ B) P (B)$
由全概率公式
$P(A)=P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})+...+P(A|B_{n})P(B_{n})$
那么，当我想求 $P (B ∣ A)$ 发生的概率时，我可以得到：
$P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(A|B)P(B)}{P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})+...+P(A|B_{n})P(B_{n})}$
这也就是贝叶斯公式

我们再将公式整合后，就会得到：
$P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(A|B)P(B)}{\sum_{i=1}^{n}P(A|H_{i})P(H_{i}) }$

这里补充一点：

后验概率 $P (B ∣ A)$
先验概率 $P (A ∣ B)$

后验概率是通过先验概率求出来的

二. 朴素贝叶斯

首先，我们来聊什么是朴素？

“朴素”的贝叶斯认为：事件与事件之间是独立的

这里用垃圾邮件来举例是比较容易理解的：
对于一封邮件，如果想要检测是否为垃圾邮件，最简单的做法就是：统计邮件中所有的词，绘制一个词典（可以理解为是一个1维的的向量），对于出现“买”，“优惠”等垃圾邮件高频词的特征标注为1，其他特征标注为0；对于标签值，我们认为 $P (y) = 1$ 时，为垃圾邮件

这样，垃圾邮件问题抽象为数学公式，就变为：

$P(y=1|X)=\frac{P(X|y=1)p(y=1)}{p(X)}$
$P(y=0|X)=\frac{P(X|y=0)p(y=0)}{p(X)}$

请注意:
我们之所以可以将问题抽象成公式的前提是，我们认为词与词之间没有关系，是相互独立的（但事实上，“优惠”后面出现“买”这个字的概率非常高，并不是完全独立的）

所以，对于朴素用人话来讲就是：我天真的认为事件A与事件B没有关系

1. 离散的朴素贝叶斯

朴素贝叶斯导入示例

在这里插入图片描述
问题：若有一个输入值，他是黑皮肤，卷头发，那么他来自哪个洲？

那么我们的问题可以抽象为：

	P(y=亚|(黑卷)) 或 P(y=非|(黑卷))

是个分类问题呦！！！！

首先，我们需要计算参数，即：

亚洲人比例
非洲人比例
亚洲黑皮肤比例
亚洲黄皮肤比例
亚洲直发比例
亚洲卷发比例
…

而后，我们需要计算每个特征的条件概率：

P(黑皮肤|亚洲)= …
P(黑皮肤|非洲)= …

P(黄皮肤|亚洲)= …
P(黄皮肤|非洲)= …

P(直发|亚洲)= …
P(直发|非洲)= …

P(卷发|亚洲)= …
P(卷发|非洲)= …

在假设条件相互独立的前提下，对于问题我们就得到了：
$P(非|黑卷)=\frac{P(黑皮肤|非洲)P(卷发|非洲)p(非洲)}{p(黑卷)}$

$P(亚|黑卷)=\frac{P(黑皮肤|亚洲)P(卷发|亚洲)p(亚洲)}{p(黑卷)}$

最后通过比较概率大小，模型将预测这个人来自…

通过上述例子，我们可以将问题推广，即
$P(y|x_{1},x_{2},...,x_{n})$
也就是
$P(y|x_{1},x_{2},...,x_{n})=\frac{p(y)P(x_{1},x_{2},...,x_{n}|y)}{P(x_{1},x_{2},...,x_{n})}$
在朴素的条件下，我们可以将式子化简为
$P(y|x_{1},x_{2},...,x_{n})=\frac{p(y)\prod_{i=1}^{n} P(x_{n}|y)}{P(x_{1},x_{2},...,x_{n})}$

其中 $P(x_{1},x_{2},...,x_{n})$ 为常数，因此
$P(y|x_{1},x_{2},...,x_{n})\propto p(y)\prod_{i=1}^{n} P(x_{n}|y)$
所以，我们的计算目标就变成了：
$\hat{y} =arg \max_{y} P(y)\prod_{i=1}^{n} P(x_{n}|y)$

即：求 $P(y)\prod_{i=1}^{n} P(x_{n}|y)$ 取最大值时，y的取值

其中y的取值在实际中不一定只有两个(亚洲，非洲)，所以朴素贝叶斯算法自身就可以做多分类的，而不需要使用OVR或者OVO的方法

离散的朴素贝叶斯训练

朴素贝叶斯的准备过程：

构建模型：算出所有的先验概率

朴素贝叶斯的训练过程：

计算 $p(y_{i}),p(x_{j}|y_{i})$

朴素贝叶斯的应用过程：

以 $p(x|y_{i})p(y_{i})$ 最大项作为x属性的类别

【注意：朴素贝叶斯没有梯度下降过程，只是在计算先验概率】

2. 连续的朴素贝叶斯

对于连续的特征属性 $x_{i}$ ，我们引入密度概率，即高斯朴素贝叶斯：当特征属性为连续值时，分布服从高斯分布，在计算 $P (x ∣ y)$ 的时候，可以直接使用高斯分布的概率密度公式：
$g(x,\eta ,\sigma )=\frac{1}{\sqrt{2\pi }\sigma} e^{-\frac{(x-\eta )^{2}}{2\sigma ^{2}} }$
$P(x_{i}|y_{k})=g(x_{i},\eta _{i,y_{k}},\sigma _{i,y_{k}})$

假设有一些连续的数据，他们的label值有1，2，3…

训练过程：
特征连续时，取label为1的数据，算 $\eta$ 均值， $\sigma$ 方差
特征连续时，取label为2的数据，算 $\eta$ 均值， $\sigma$ 方差
特征连续时，取label为3的数据，算 $\eta$ 均值， $\sigma$ 方差
…

3. 伯努利朴素贝叶斯

伯努利分布是二项分布的一种特殊情况，可以看作是只进行一次实验的二项分布

二项分布是一种离散分布，即标签值为1或0
如果接收到了除了1和0以外的数据作为参数，可以通过BernoulliNB把输入数据二元化(取决于binarize 参数设置)

当特征属性服从伯努利分布时，公式为：
$P(x_{k}|y)=p(1|y)^{x_{k}}\ast (1-p(1|y))^{1-x_{k}}$

4. 多项式朴素贝叶斯

在特征服从多项分布时（即特征离散，比如：非洲人、亚洲人的例子），对于朴素贝叶斯而言，我们的预测结果是否准确完全取决于我们的样本是否全面；

当样本存在数据小或是不全面的情况下（比如：未统计到亚洲存在黑皮肤），我们可以用平滑解决：

	平滑的主要作用是克服条件概率为0的问题

4.1 Laplace平滑

$p(y_{k})=\frac{N_{y_{k}}+\alpha }{N+k\ast \alpha }$
$p(x_{i}|y_{k})=\frac{N_{y_{k},x_{i}}+\alpha }{N_{y_{k},x_{i}}+n_{i}\ast \alpha }$

其中 $α = 1$

4.2 Lidstone平滑

$p(y_{k})=\frac{N_{y_{k}}+\alpha }{N+k\ast \alpha }$
$p(x_{i}|y_{k})=\frac{N_{y_{k},x_{i}}+\alpha }{N_{y_{k},x_{i}}+n_{i}\ast \alpha }$

其中 $0 < α < 1$

三. 概率图模型

上面我们讨论了，当事件与事件相互独立时，朴素贝叶斯多分类任务的思想与算法；但事实是，事件与事件之间并不是完全独立的，比如：垃圾邮件中“优惠”后通常接的是“买”；machine learning中的learning是动名词而不是动词等等

诸如此类的例子，我们都可以将他们归为概率图模型，即：一种用于学习这些带有依赖的模型的强大框架

1. 贝叶斯网络(Bayesian Network)

当多个特征属性之间存在着某种相关关系的时候，朴素贝叶斯算法就无法解决问题了；而贝叶斯网络却是解决这类应用场景的一个非常好的算法

在这里插入图片描述
针对上面这个图，我们来做一些概念解释：

	贝叶斯网络，即：把研究系统中涉及到的随机变量，根据是否条件独立绘制在一个有向图中，就形成了贝叶斯网络
	贝叶斯网络又称有向无环图模型
	
	节点表示随机变量，可以是可观察到的变量、隐变量、未知参数等等
	
	接两个节点之间的箭头表式两个随机变量之间的因果关系，即这两个随机变量之间非条件独立
	
	 贝叶斯网络的关键方法是图模型

针对上面这幅图，我们可以得到公式
$P (a, b, c) = P (a) P (b ∣ a) P (c ∣ a, b)$

1.1 全连接贝叶斯网络

在这里插入图片描述
网络拓扑图全连接时，我们可以得到公式
$P (A, B, C, D, E) = P (A) P (B ∣ A) P (C ∣ A, B) P (D ∣ A, B, C) P (E ∣ A, B, C, D)$
进一步抽象，我们就可以得到数学关系：
$P(x_{1},x_{2},...,x_{n})=\prod_{i=2}^{n} P(x_{n}|x_{1},x_{2},...,x_{n-1})P(x_{2}|x_{1})P(x_{1})$

1.2 “正常”贝叶斯网络

在这里插入图片描述
$P(x_{1},x_{2},x_{3},x_{4},x_{5},x_{6},x_{7})=P(x_{1})P(x_{2})P(x_{3})P(x_{4}|x_{1},x_{2},x_{3})P(x_{5}|x_{1},x_{3})P(x_{6}|x_{4})P(x_{7}|x_{4},x_{5})$

2. 隐马尔可夫模型(HiddenMarkovModel)

隐马尔科夫模型是一类基于概率统计的模型，是一种结构最简单的动态贝叶斯网，也是有向图模型

在时序数据建模，例如：语音识别、文字识别、自然语言处理等领域广泛应用

马尔可夫性质：
随机过程中某一状态 $S_{t}$ 发生的概率，只与它的前一个状态有关，而与更前的所有状态无关
若某一随机过程满足马尔科夫性质，则称这一过程为马尔科夫过程，或称马尔科夫链

然而现实中，许多现象并不符合这一性质，但是我们可以假设某个事件具有马尔科夫性质，这个性质为很多无章可循的问题提供了一种解法

$P(S_{t}|S_{t-1},S_{t-2},..,S_{t-n})=P(S_{t}|S_{t-1})$

2.1 马尔科夫过程

在这里插入图片描述

	中每一个节点代表相应时刻的状态
	有向箭头代表了可能的状态转移，值表示状态转移概率

2.2 隐马尔科夫过程

在一个随机过程中，马尔科夫链虽然无法直接观测到，但可以观测到每个状态的输出结果。这个输出结果只与状态有关，并且是可观测到的。这种过程被称为隐马尔科夫过程，或者称为隐马尔科夫模型。
在这里插入图片描述

	隐马尔科夫模型中，马尔科夫链指的是隐状态S0,S1,…,St 序列

感谢阅读🌼
如果喜欢这篇文章，记得点赞👍和转发🔄哦！
有任何想法或问题，欢迎留言交流💬，我们下次见！
本文相关代码存放位置
【代码实现】

祝愉快🌟！

原文地址:https://blog.csdn.net/weixin_49613115/article/details/136526778 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1768015720211419136.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部