强化学习——马尔可夫过程的理解

2024-05-14 16:20:03
开发
35

在这里插入图片描述

一、马尔可夫过程

1.随机过程

随机过程是概率论的“动态”版本。普通概率论研究的是固定不变的随机现象，而随机过程则专注于那些随时间不断变化的情况，比如天气怎样变化或者城市的交通如何流动。在随机过程中，我们把某一时刻发生的事情视为一组可能结果的集合，并且这些结果随时间不断变化。

这个过程的特点是，一个时间点的情况往往会受到前一个时间点情况的影响。例如，如果我们知道现在的天气状况，我们就可以预测接下来天气变化的可能性。随机过程就是这样一种工具，帮助我们理解和预测那些随时间变化的复杂情况。

2.马尔可夫性质

马尔可夫性质是一种特殊的规则，用于描述一些随机过程，例如天气变化或股市波动。这个规则的核心是：在这种过程中，下一步会发生什么，只取决于现在的状态，而和之前发生的事情无关。

举个例子，如果你在玩一个掷骰子的游戏，那么下一次掷出什么数字只取决于你这一次掷的结果，和之前的掷骰子结果没有关系。这就是马尔可夫性质的一个简单应用。

虽然看起来像是我们不用管历史，但实际上，现在的状态是由过去的状态一步步演变而来的。所以，通过现在的状态，我们其实间接地获得了历史的信息。这就像是只需要看最新的新闻标题，而不必去读整篇文章，你就能知道发生了什么事。

这种性质让分析和预测变得更简单，因为你只需要关注现在，就能有理由推测未来会发生什么。马尔可夫性质在科学和工程中非常有用，因为它帮助我们用简洁的方式处理复杂的信息。

3.马尔可夫过程

马尔可夫过程，又称为马尔可夫链，是一种特殊的随机过程，其核心特性是未来的状态仅由当前的状态决定，而不受之前状态的影响。我们通常用一个包含两个元素的组合 $< S, P >$ 来描述马尔可夫过程： $S$ 是有限的状态集合， $P$ 是状态转移矩阵。

状态集合就是该过程可能达到的所有不同状态。状态转移矩阵则是一个表格，记录了从任一状态转移到另一状态的概率。比如，如果一个过程有 $n$ 个状态，此时 $S =$ { $s_{1},s_{2},...,s_{n}$ }，状态转移矩阵 $P$ 就会是一个 $n \times n$ 的表格，表中的每个数字表示从一行的状态转到一列状态的概率，即：

$P=\begin{bmatrix} P(s_{1}|s_{1}) & \cdots & P(s_{n}|s_{1}) \\ \vdots & \ddots & \vdots \\ P(s_{1}|s_{n}) & \cdots & P(s_{n}|s_{n}) \end{bmatrix}$

矩阵 $P$ 中第 $i$ 行第 $j$ 列元素 $P(s_{j}|s_{i}) =P(S_{t+1}=s_{j}|S_{t}=s_{i})$ ，表示从状态 $s_{i}$ 转移到状态 $s_{j}$ 的概率。从某个状态出发，到达其他状态的概率和必须为 1，即状态转移矩阵的每一行的和为 1。

简单来说，马尔可夫过程就像是一个决策地图，指导你如何根据当前位置预测下一步的位置。每一步的决策只依赖于你现在所在的“地点”，而与你之前的路径无关。这种性质使得马尔可夫过程在预测和决策制定中非常有用，尤其是在那些变化快速且需要即时反应的场景中。

4.马尔可夫过程示例

在这里插入图片描述

图1 马尔可夫过程示例

图1展示了一个包含6个状态的简单马尔可夫过程。图中的每个绿色圆圈代表一个状态，每个状态都可以按照一定的概率（包括零概率）转移到其他状态。特别的，状态 $s_{6}$ 通常被称为终止状态，因为它不再转移到其他状态，而是永远以1.0的概率转移到自己。

状态之间的转移通过虚线箭头表示，箭头旁边的数字显示了转移发生的概率。对于每个状态，从它出发到其他状态的转移概率之和必须等于1。例如，状态 $s_{1}$ 有90%的概率保持在当前状态，10%的概率转移到另一个特定状态 $s_{2}$ 。状态 $s_{2}$ 有50%的概率返回先前的状态 $s_{1}$ ，有50%的概率前往另一个新状态 $s_{3}$ 。

这个马尔可夫过程的状态转移矩阵：

$P=\begin{bmatrix} 0.9 & 0.1 &0 &0 &0 &0 \\ 0.5 & 0 & 0.5 & 0 & 0 & 0\\ 0 & 0 & 0 & 0.6 & 0 & 0.4\\ 0 & 0 & 0 & 0 & 0.3 & 0.7\\ 0 & 0.2 & 0.3 & 0.5 & 0 & 0\\ 0 & 0 & 0 & 0 & 0 & 1 \end{bmatrix}$

给定一个马尔可夫过程后，我们可以从某个特定的初始状态出发，按照状态转移矩阵中规定的概率，逐步生成一个状态序列。这个过程被称为采样。通过采样，我们能够模拟出从一个初始状态开始，状态如何随机地转移和变化，形成一系列连续事件，这有助于我们理解和预测该马尔可夫过程的行为特征。例如，从 $s_{1}$ 出发，可以生成序列 $s_{1} \to s_{2} \to s_{3} \to s_{6}$ 或序列 $s_{1} \to s_{1} \to s_{2} \to s_{3} \to s_{4} \to s_{5} \to s_{3} \to s_{6}$

参考文献

[1] 动手学强化学习

[2] 强化学习（Reinforcement Learning）

原文地址:https://blog.csdn.net/python_plus/article/details/138808261 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1790295997692383232.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部