强化学习编程实践-4-基于蒙特卡洛的方法

2024-07-13 19:54:02
开发
17

第3章给出了学习算法的基本思路：策略评估和策略改善。其中策略评估用到了以下的公式（4.1）：

策略改善则用了最简单的贪婪策略（4.2）：

为什么要用蒙特卡洛算法？先看公式4.1和4.2，如果状态转移概率已知，那么利用上面两式就可以得到最优策略。如果模型是未知的？式（4.1）不能再用，式（4.1）仍然可以用，因为该式与模型无关。

如果想要利用整个框架，必须找到一种方法来替代公式（4.1）的策略评估。

---->利用本章蒙特卡洛方法和第5章的时间差分方法。

4.1 蒙特卡洛算法原理

当模型是未知的，即智能体在状态s时并不知道转移到下一个状态s'的概率。但是，智能体在状态s通过动作a与环境进行交互，环境会根据根据状态转移给出下一个时刻的状态，但环境并不会直接给出状态转移的概率。也就是说，在模型未知时，我们只能通过一系列的动作，得到一系列的状态序列。

其中为终止状态。

至此，我们已经拥有当前的策略，以及根据策略Π得到的一连串数据，缺少状态转移概率，而想要评估策略Π的值函数，该怎么做？

既然不能使用式（4.1），那么回到值函数的定义式(4.3)

式4.3是期望的式子，其中 $\tau$ 表示一次实验数据，即为

G（τ）为累积折扣回报，为产生轨迹 $\tau$ 的概率分布，我们不知道值函数的概率分布，所以不能用积分公式来求值函数。但我们有数据就可以计算在策略Π的作用下，经过一次实验τ后状态St处的折扣累积回报G(τ)。

蒙特卡洛的方法就是用策略Π做很多次实验，从而可以的带状态 $s_t$ 处的很多个折扣累积回报，那么公式（4.3）的积分公式，就可以用代数平均来计算。即式（4.4）：

那有了式4.4和式4.2，就可以进行策略评估和策略改善了吗？

还不行，因此公式4.2，我们只知道每个状态处的行为-值函数q(s,a),而不是状态值 $v_\pi(s)$

行为值函数的定义为式（4.5）：

当模型P已知时，值函数可以由式（4.5）计算出来。但模型未知时，该怎么办？

还是需要行为-值函数的原始定义，式（4.6）：

式（4.6）的计算用前面的蒙特卡洛进行估计。即式（4.7）：

对于无模型的强化学习算法，利用式4.7和式4.2就可以实现策略评估和策略改善。

1.关于值函数和行为值函数

值函数定义：

行为值函数定义：

即在状态 $s_t$ ,并采取了动作a之后折扣累积回报的期望。

举一个简单的例子，利用策略Π产生了如下两组数据：

那么状态值函数的计算公式为 $\nu (s_0)=\frac{1}{2}((r_1+\gamma r_2)+(r_2+\gamma r_T))$

行为值函数可以分为两个： $q(s_0,a_1)=r_1+\gamma r_2\\ q(s_0,a_2)=r_3+\gamma r_T$

2.关于值函数的定义

4.2蒙特卡洛算法的代码实现

原文地址:https://blog.csdn.net/qq_53682472/article/details/140388066 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1812093122017103872.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-13 19:54:02 86 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-13 19:54:02 72 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-13 19:54:02 67 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-13 19:54:02 72 阅读
NoSQL之Redis非关系型数据库

2024-07-13 19:54:02 74 阅读
2024.7.22 作业

2024-07-13 19:54:02 74 阅读
GDB调试正在运行的程序

2024-07-13 19:54:02 59 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-13 19:54:02 60 阅读
在Django里面运行非项目文件

2024-07-13 19:54:02 58 阅读
SSD基本架构与工作原理

2024-07-13 19:54:02 64 阅读
在誉天学习完HCIE就业吗？

2024-07-13 19:54:02 71 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-13 19:54:02 61 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-13 19:54:02 65 阅读
go 协程池的实现

2024-07-13 19:54:02 64 阅读
Shell脚本循环语句与函数

2024-07-13 19:54:02 66 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-13 19:54:02 70 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-13 19:54:02 62 阅读
四大引用——强软弱虚

2024-07-13 19:54:02 67 阅读
Python语言-面向对象

2024-07-13 19:54:02 69 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-13 19:54:02 64 阅读
网站安全-CDN篇

2024-07-13 19:54:02 64 阅读

热门阅读

c/c++ 打印调用栈

2024-07-13 19:54:02 19 阅读
VS编译和使用modbus库

2024-07-13 19:54:02 22 阅读
swiper结合gsap进行切换

2024-07-13 19:54:02 19 阅读
昇思训练营打卡第二十四天（LSTM+CRF序列标注）

2024-07-13 19:54:02 16 阅读
Nginx 日志统计分析命令

2024-07-13 19:54:02 21 阅读
天童美语：放假给孩子看什么地理纪录片

2024-07-13 19:54:02 17 阅读
Perl 语言开发（十三）：网络编程

2024-07-13 19:54:02 22 阅读
层次分析法详细讲解+Python代码实现

2024-07-13 19:54:02 16 阅读
块设备驱动实现--模拟一个块设备

2024-07-13 19:54:02 16 阅读
奇舞周刊第533期：单点登录（SSO）实现详解

2024-07-13 19:54:02 22 阅读
Docker

2024-07-13 19:54:02 15 阅读
【Android面试八股文】谈谈你对Glide生命周期的理解

2024-07-13 19:54:02 17 阅读
docker

2024-07-13 19:54:02 20 阅读
【错题集-编程题】四个选项（DFS + 剪枝 + 哈希表）

2024-07-13 19:54:02 16 阅读
Ubuntu基本环境配置

2024-07-13 19:54:02 20 阅读
Ubuntu22.04系统装好后左上角下划线闪烁不开机（N卡）

2024-07-13 19:54:02 22 阅读
qint64 pendingDatagramSize() const；

2024-07-13 19:54:02 20 阅读
ProFuzzBench入门教学——使用（Ubuntu22.04）

2024-07-13 19:54:02 18 阅读
【ingress-nginx】安装配置及Helm工具安装

2024-07-13 19:54:02 16 阅读
ThreadLocal有哪些应用场景？底层如何实现？

2024-07-13 19:54:02 21 阅读
c++函数模板

2024-07-13 19:54:02 22 阅读
windows USB 设备驱动开发-USB 等时传输

2024-07-13 19:54:02 15 阅读
eNsp公司管理的网络NAT策略搭建

2024-07-13 19:54:02 17 阅读
Qt之元对象系统

2024-07-13 19:54:02 14 阅读
最小生成树

2024-07-13 19:54:02 20 阅读
[python]基于yolov10+gradio目标检测演示系统设计

2024-07-13 19:54:02 19 阅读
【python报错已解决】 “Invalid Array Index“

2024-07-13 19:54:02 22 阅读
219.贪心算法：柠檬水找零（力扣）

2024-07-13 19:54:02 18 阅读
IPython：提升Python编程效率的实用技巧与案例

2024-07-13 19:54:02 19 阅读
赋值运算符.二

2024-07-13 19:54:02 18 阅读