Policy-Based Reinforcement Learning（2）

2024-06-10 21:38:04
开发
10

上篇已经介绍过：

$V(s;\theta ) = \sum_{a}^{}\pi (a|s;\theta )Q_\pi (s,a)$

Policy Gradient:

$\frac{\partial V(s;\theta )}{\partial \theta } = \frac{\partial \sum_{a}^{}\pi (a|s;\theta )Q_\pi (s,a)}{\partial \theta } \newline |\quad \quad = \sum_{a}^{}\frac{\partial \pi (a|s;\theta )}{\partial \theta } Q_\pi (s,a) \newline |\quad \quad =\sum_{a}^{} \pi (a|s;\theta ) \frac{\partial log\pi (a|s; \theta )}{\partial \theta } Q_\pi (s,a) (\frac{\partial log \pi (\theta )}{\partial \theta } = \frac{1}{\pi (\theta ) } * \frac{\partial \pi (\theta )}{\partial \theta }) \newline |\quad \quad = E_A[\frac{\partial log\pi (A|s;\theta ) }{\partial \theta } Q_\pi (s,A)]$

这样就得到2种Policy Gradient 公式：

$\frac{\partial V(s;\theta )}{\partial \theta } = \frac{\partial \sum_{a}^{}\pi (a|s;\theta )Q_\pi (s,a)}{\partial \theta } \quad (1)$

$\frac{\partial V(s;\theta )}{\partial \theta } =E_A[\frac{\partial log\pi (A|s;\theta ) }{\partial \theta } Q_\pi (s,A)] \quad (2)$

公式（1）用于离散的情形，（2）用于连续的情形

原文地址:https://blog.csdn.net/zhangsj1007/article/details/139581657 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1800160502547091456.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

Flask-REXTx 学习笔记——1.响应编组（Response marshalling）

2024-06-10 21:38:04 12 阅读
Python数据分析与机器学习在电子商务推荐系统中的应用

2024-06-10 21:38:04 9 阅读
MySQL系列-安装配置使用说明（MAC版本）

2024-06-10 21:38:04 9 阅读
力扣 42. 接雨水

2024-06-10 21:38:04 12 阅读
module ‘django_cas_ng.views‘ has no attribute ‘login‘

2024-06-10 21:38:04 10 阅读
数据仓库之维度建模

2024-06-10 21:38:04 8 阅读
LeetCode 第132场双周赛个人题解

2024-06-10 21:38:04 10 阅读
服务器硬件基础知识：新手完全指南

2024-06-10 21:38:04 8 阅读
聚醚醚酮（Polyether Ether Ketone）PEEK在粘接使用时使用UV胶水的优势有哪些？要注意哪些事项？

2024-06-10 21:38:04 10 阅读
Python开发学习路线图（建议收藏）

2024-06-10 21:38:04 5 阅读
JWT 从入门到精通

2024-06-10 21:38:04 11 阅读
小白学Linux | Debian系系统与RedHat系系统日志区别

2024-06-10 21:38:04 8 阅读
初探沁恒CH32V307VCT6评估板 2-1定时器TIM

2024-06-10 21:38:04 10 阅读
MAX7219（模拟SPI）驱动灯环的简单应用

2024-06-10 21:38:04 8 阅读
STM32串口DMA 空闲中断使用笔记

2024-06-10 21:38:04 8 阅读
[每日一练]关于MySQL利用排序和分页参数查询最大值

2024-06-10 21:38:04 12 阅读
一文了解SpringBoot

2024-06-10 21:38:04 9 阅读
ctfshow web

2024-06-10 21:38:04 10 阅读
20240607在Toybrick的TB-RK3588开发板的Android12下适配IMX415摄像头和ov50c40

2024-06-10 21:38:04 11 阅读
第一章 - 第4节-计算机软件系统 - 课后习题

2024-06-10 21:38:04 10 阅读
46-5 等级保护2.0主要变化

2024-06-10 21:38:04 8 阅读
算法设计与分析（期末复习版4完结版）

2024-06-10 21:38:04 7 阅读
我在得物的这两年

2024-06-10 21:38:04 8 阅读
华为坤灵路由器配置SSH

2024-06-10 21:38:04 11 阅读
深度学习框架-----Tensorflow2基础

2024-06-10 21:38:04 9 阅读
Comfyui制作创意字体海报教程

2024-06-10 21:38:04 6 阅读
vue面试题一

2024-06-10 21:38:04 8 阅读
ChatGPT

2024-06-10 21:38:04 8 阅读
【MomoTalk之Stable Diffusion】尝试接入前端

2024-06-10 21:38:04 10 阅读
Python 机器学习基础之【常用机器学习库】 scikit-learn 机器学习库

2024-06-10 21:38:04 11 阅读