DRL(Deep Reinforced Learning) PPO算法（Proximal Policy Optimization）

2024-04-30 21:16:04
开发
24

PPO(Proximal Policy Optimization)

最好先看一下策略梯度优化，再看这篇文章，不然公式推不明白

PPO是Openai默认的强化学习策略

On-policy：学习的agent和与环境交互的agent是同一个

$\nabla \bar{R}_\theta = E_{\tau \sim p_\theta(\tau)}[R(\tau) \nabla \log p_\theta(\tau)]$

Off-policy：学习的agent和与环境交互的agent不同

这里的agent可以理解为上文的 actor

$\nabla \bar{R}_\theta = E_{\tau \sim p_{\theta'}(\tau)}\left[\frac{p_\theta(\tau)}{p_{\theta'}(\tau)} R(\tau) \nabla \log p_\theta(\tau)\right]$

为什么要off-policy ？

因为在on-policy时，你每一次采样后的 $\tau$ 只能用一次，在更新 $\theta$ 参数后就得重新采样

变成off-policy的好处就是一次采样多次使用，不在原始分布 $p (x)$ 上采样，而是在伪分布 $q (x)$ 上采样，然后来训练 $p (x)$ 分布的参数 $\theta$

在做 off-policy 时，我们补充下述方法和公式推导

Importance Sampling

$E_{x \sim p}[f(x)] \approx \frac{1}{N} \sum_{i=1}^N f(x^i)= \int f(x) p(x) \, dx = \int f(x) \frac{p(x)}{q(x)} q(x) \, dx = E_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]$

原来 $x_i$ 是从 $p (x)$ 分布中去抓取，但是通过上述推导，我们可以从 $q (x)$ 分布中抓取 $x_i$
$p (x)$ 分布是实际分布， $q (x)$ 分布是模仿实际分布的伪分布

在有伪分布 $q (x)$ 后，我们就可以从中抽取 $\theta^{'}$ 来训练 $\theta$ ，由于 $\theta^{'}$ 是固定的，所以可以重复使用，不用再像之前的 $\theta$ 一样每次都得更新。

但importance sampling 也有一些问题：方差会不一样

方差公式： $Var[X] = E[X^2]-(E[X])^2$

$\text{Var}_{x \sim p}[f(x)] = E_{x \sim p}[f(x)^2] - (E_{x \sim p}[f(x)])^2$

$\text{Var}_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right] = E_{x \sim q}\left[\left(f(x) \frac{p(x)}{q(x)}\right)^2\right] - \left(E_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]\right)^2 \\ = \int q(x)f(x)^2\frac{p(x)^2}{q(x)^2}dx - \int q(x)^2f(x)^2\frac{p(x)^2}{q(x)^2}dx \\= E_{x \sim p}[f(x)^2\frac{p(x)}{q(x)}] - \left(E_{x \sim p}[f(x)]\right)^2$

观察上述两个方差等式我们可以看到，如果 $p (x)$ 分布和 $q (x)$ 分布一样，需要满足下述等式
$E_{x \sim p}[f(x)] = E_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]$
如果 $\frac{p(x)}{q(x)}$ 差距很大，即实际分布和伪分布相差很多，那么实际方差与估计方差就会有很大的差距

理想状态下，只要有足够多的采样，上述问题就不是问题。但是实际情况是我们无法做到采样足够多的样本，所以 $E_{x \sim p}[f(x)] = E_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]$ 的左右两侧会产生很大的差别

梯度更新

$\text{gradient for update} = E_{(s_t,a_t) \sim \pi_\theta} \left[ A^\theta(s_t, a_t) \nabla \log p_\theta(a_t | s_t) \right] \\= E_{(s_t,a_t) \sim \pi_{\theta'}} \left[ \frac{p_\theta(s_t, a_t)}{p_{\theta'}(s_t, a_t)} A^\theta(s_t, a_t) \nabla \log p_\theta(a_t | s_t) \right] \\ = E_{(s_t,a_t) \sim \pi_{\theta'}} \left[ \frac{p_\theta(a_t | s_t) p_\theta(s_t)}{p_{\theta'}(a_t | s_t) p_{\theta'}(s_t)} A^\theta(s_t, a_t) \nabla \log p_\theta(a_t | s_t) \right]$

其中 $\frac{p_\theta(s_t)}{p_{\theta'}(s_t)}$ 默认相等然后约掉（因为不好算，所以认为他们近似等价并约分）

有推导公式 $\nabla f(x) = f(x) \nabla \log f(x)$ ，观察上述梯度等式可以发现，
$=p_\theta(a_t | s_t)\\ \nabla \log f(x)=\nabla \log p_\theta(a_t | s_t)$
所以
$\nabla f(x)=f(x) \nabla \log f(x) =p_\theta(a_t | s_t)\nabla \log p_\theta(a_t | s_t)=\nabla p_\theta(a_t | s_t)$
即梯度为
$\nabla = E_{(s_t,a_t) \sim \pi_{\theta'}} \left[ \frac{\nabla p_\theta(a_t | s_t)}{p_{\theta'}(a_t | s_t) } A^{\theta'}(s_t, a_t) \right]$
由梯度可以推出关于 $\theta'$ 的奖励目标函数
$J^{\theta'}(\theta) = E_{(s_t, a_t) \sim \pi_{\theta'}} \left[ \frac{p_\theta(a_t | s_t)}{p_{\theta'}(a_t | s_t)} A^{\theta'}(s_t, a_t) \right]$

PPO算法

$J^{k}_{PPO}(\theta) = J^{\theta^k}(\theta) - \beta KL(\theta, \theta^k)\\ J^{\theta^k}(\theta) \approx \sum_{(s_t, a_t)} \frac{p_\theta(a_t | s_t)}{p_{\theta^k}(a_t | s_t)} A^{\theta^k}(s_t, a_t)\\ \text{If } KL(\theta, \theta^k) \geq KL_{\text{max}}, \text{ increase } \beta \\ \text{If } KL(\theta, \theta^k) \leq KL_{\text{min}}, \text{ decrease } \beta \\$

在后面加上了KL散度

初始化策略参数 $\theta^0$ 。
在每次迭代中：
- 使用 $\theta^k$ 与环境交互，收集 ${s_t, a_t\}$ ，并计算优势 $A^{\theta^k}(s_t, a_t)$ 。
- 找到优化 $J_{PPO}(\theta)$ 的 $\theta$ 。

PPO的第二种方式

$J_{PPO2}^{\theta^k}(\theta) \approx \sum_{(s_t, a_t)} \min \left( \frac{p_\theta(a_t | s_t)}{p_{\theta^k}(a_t | s_t)} A^{\theta^k}(s_t, a_t), \text{clip}\left(\frac{p_\theta(a_t | s_t)}{p_{\theta^k}(a_t | s_t)}, 1 - \xi, 1 + \xi\right) A^{\theta^k}(s_t, a_t) \right)$

clip是一个选择函数

当 $\frac{p_\theta(a_t | s_t)}{p_{\theta^k}(a_t | s_t)} < 1 -\xi$ 时选 $-\xi$
当 $\frac{p_\theta(a_t | s_t)}{p_{\theta^k}(a_t | s_t)} > 1 +\xi$ 时选 $+\xi$
当 $-\epsilon < \frac{p_\theta(a_t | s_t)}{p_{\theta^k}(a_t | s_t)} < 1 +\xi$ 时选 $\frac{p_\theta(a_t | s_t)}{p_{\theta^k}(a_t | s_t)}$

在这里插入图片描述

绿线是 $\frac{p_\theta(a_t | s_t)}{p_{\theta^k}(a_t | s_t)} A^{\theta^k}(s_t, a_t)$ 的范围

蓝线是clip选择后的范围

x轴是 $\frac{p_\theta(a_t | s_t)}{p_{\theta^k}(a_t | s_t)}$ 的比值

我们不希望真实分布 $p_\theta(x)$ 和伪分布 $p_{\theta'}(x)$ 相差太大，也就是这个比值最好是在1左右

这里尝试对上图进行解释：

当 $A > 0$ 时，说明 s 和 a 获得的奖励是好的，说明此时 $p_\theta(a_t | s_t)$ 做出的决策是正确的，我们希望它越大越好，此时目标函数（红线）会把概率往上推，但只能推到一定的程度

当 $A < 0$ 时，说明 s 和 a 获得的奖励是好的，说明此时 $p_\theta(a_t | s_t)$ 做出的决策是错误的，我们希望它越小越好，此时目标函数（红线）就把概率往下推，但也不会推的很小

原文地址:https://blog.csdn.net/weixin_48435461/article/details/138353985 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1785297065518174208.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部