Policy-Based Reinforcement Learning(2)

上篇已经介绍过:

V(s;\theta ) = \sum_{a}^{}\pi (a|s;\theta )Q_\pi (s,a)

Policy Gradient:

\frac{\partial V(s;\theta )}{\partial \theta } = \frac{\partial \sum_{a}^{}\pi (a|s;\theta )Q_\pi (s,a)}{\partial \theta } \newline |\quad \quad = \sum_{a}^{}\frac{\partial \pi (a|s;\theta )}{\partial \theta } Q_\pi (s,a) \newline |\quad \quad =\sum_{a}^{} \pi (a|s;\theta ) \frac{\partial log\pi (a|s; \theta )}{\partial \theta } Q_\pi (s,a) (\frac{\partial log \pi (\theta )}{\partial \theta } = \frac{1}{\pi (\theta ) } * \frac{\partial \pi (\theta )}{\partial \theta }) \newline |\quad \quad = E_A[\frac{\partial log\pi (A|s;\theta ) }{\partial \theta } Q_\pi (s,A)]

这样就得到2种Policy Gradient 公式:

\frac{\partial V(s;\theta )}{\partial \theta } = \frac{\partial \sum_{a}^{}\pi (a|s;\theta )Q_\pi (s,a)}{\partial \theta } \quad (1)

\frac{\partial V(s;\theta )}{\partial \theta } =E_A[\frac{\partial log\pi (A|s;\theta ) }{\partial \theta } Q_\pi (s,A)] \quad (2)

公式(1)用于离散的情形, (2)用于连续的情形

相关推荐

  1. oslo_policy学习小结

    2024-06-10 21:38:04       16 阅读
  2. 强化学习 - Trust Region Policy Optimization (TRPO)

    2024-06-10 21:38:04       29 阅读
  3. .Net Core Policy 基于策略授权

    2024-06-10 21:38:04       31 阅读
  4. Policy Gradient-优化动作选择函数

    2024-06-10 21:38:04       14 阅读
  5. Configure Google Chrome Settings with Group Policy

    2024-06-10 21:38:04       10 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-10 21:38:04       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-10 21:38:04       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-10 21:38:04       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-10 21:38:04       20 阅读

热门阅读

  1. module ‘django_cas_ng.views‘ has no attribute ‘login‘

    2024-06-10 21:38:04       10 阅读
  2. 数据仓库之维度建模

    2024-06-10 21:38:04       8 阅读
  3. LeetCode 第132场双周赛个人题解

    2024-06-10 21:38:04       10 阅读
  4. 服务器硬件基础知识:新手完全指南

    2024-06-10 21:38:04       8 阅读
  5. 小白学Linux | Debian系系统与RedHat系系统日志区别

    2024-06-10 21:38:04       8 阅读
  6. STM32串口DMA 空闲中断使用笔记

    2024-06-10 21:38:04       8 阅读
  7. 第一章 - 第4节-计算机软件系统 - 课后习题

    2024-06-10 21:38:04       10 阅读
  8. 46-5 等级保护2.0主要变化

    2024-06-10 21:38:04       8 阅读
  9. 算法设计与分析(期末复习版4完结版)

    2024-06-10 21:38:04       7 阅读
  10. vue面试题一

    2024-06-10 21:38:04       8 阅读
  11. ChatGPT

    2024-06-10 21:38:04       8 阅读