深度强化学习Deep Rrinforcement Learning|MDP|POMDP

我们将 $\pi$ 表示为一个策略，它是一个从状态到动作的映射。MDP的目标是找到一个使奖励函数最大化的最优策略。MDP可以是有限或无限的时间范围。对于有限时间范围MDP，使得期望总汇报最大化的最优策略 $\pi ^{*}$ 由定义，其中， $a_{t}=\pi (s_{t})$ ，指的就是策略在st下选择动作at。对于无限时间范围MDP，目标可以是最大化预期的折扣总奖励或最大化平均奖励。折扣总奖励被定义为，平均奖励被定义为。其中 $\gamma \epsilon [0,1]$ 表示的是折扣率，折现系数γ决定了未来奖励相比于当前奖励的重要性。当 $\gamma =0$ 时，智能体只考虑当前利益，即最大化即时的奖励；相反，若 $\gamma$ 接近于1，智能体/代理agent将会争取长期更高的奖励。

2、部分可观测马尔科夫决策过程（Partially Observable Markov Decision Process，POMDP）：

在MDP中，我们假设系统状态是被agent完全观察到的。然而，在许多情况，智能体agent仅能观察到系统状态的一部分，因此因此，部分可观察马尔可夫决策过程(POMDPs)可用于建模决策问题。

一个典型的POMDP模型可以被定义为六元组 $(S,A,p,r,\Omega ,O)$ ，其中，元组中的前面四个元素可以看到，与基本的MDP模型所代表的含义相同。这其中的 $\Omega$ 和O分别表示观测集合和观测概率。在每个时间点（at each time epoch），agent智能体处于状态s，基于它对当前状态s的信念b(s)选择一个动作a，并观察即时奖励r和当前观察值o。基于观察值o和它对当前状态的信念b(s)，然后智能体更新关于新状态s'的信念b(s')，如下所示（as follows）：

其中，O(o|s,a,s')指的是agent在状态s下采取动作a获得观测o的概率以及agent移动到状态s'。p(s'|s,a)的定义与MDP相同，表示在状态s下执行动作a从状态s到状态s'的转移概率。最后，agent获得的即时奖励r等于MDp中的r(s,a)。与MDP模型相类似，POMDP中的智能体也以寻找最优策略 $\pi ^{*}$ 为目标，以最大化它的预期长期贴现奖励

3、对比MDP与POMDP:

在下图fig3中，主要强调对比了MDP和POMDP模型。

对于MDP模型来说，当前智能体需要观测状态st，然后根据策略 $\pi$ /值函数(V/Q函数)选出最优的动作并执行，此时会反馈一个即时的奖励rt，并且会进入到下一时刻的状态st+1。

对于POMDP模型来说，引入了观测空间O。由于在POMDP模型中，智能体无法直接观察到环境的状态，而是通过观察到的部分信息来推断环境的状态。观测到的信息可以是不完全的、模糊的，又或者是有噪声的，这就使得智能体需要在不完全信息的情况下做出决策。

三、总结

1、与Markov相关的四个概念

马尔科夫链(Markov Chain)、马尔科夫决策过程(Markov Decision Process,MDP)、部分可观察马尔科夫决策过程(Partially Obserable Markov Decision Process,POMDP)、隐马尔科夫模型(HMM)。

2、MDP和POMDP与深度强化学习DRL/强化学习RL间的关系

MDP和POMDP都是一种数学模型，它是现实中一部分问题的抽象表达形式；而深度强化学习则是一种利用深度学习技术解决强化学习问题的方法；强化学习是一种机器学习范式，旨在让智能体agent通过与环境的交互学习如何做出决策，以最大化长期奖励。

由此可见，MDP和POMDP都提供了强化学习问题的数学框架，而DRL是一种利用深度学习技术解决这些问题的方法，DRL可以应用于MDP和POMDP的求解，为解决复杂的问题提供了一种有效的途径。

参考论文：Applications of Deep Reinforcement Learning in Communications and Networking: A Survey.

还有一些其它方面已学习过的。

原文地址:https://blog.csdn.net/m0_64578069/article/details/140459901 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1813160677817323520.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部