【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程，贝尔曼最优方程推导过程

2024-04-03 18:00:05
开发
38

【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程，贝尔曼最优方程推导过程

1.回报
在这里插入图片描述
2.当前时刻的回报与下一时刻回报的关系

3.状态价值函数

4.动作价值函数
在这里插入图片描述

5.状态价值函数与动作状态价值函数的关系

6.贝尔曼期望方程

7.状态价值函数的贝尔曼期望方程
在这里插入图片描述
8.动作价值函数的贝尔曼期望方程

9.贝尔曼期望方程的另一种理解方式，结合下图理解

10.一点疑惑 在这里插入图片描述

上图中的1式和2式右边部分形式相同，那么可得q(s，a)与v(s)相等，这么理解肯定是错误的；1式是在动手学强化学习的3.3.2 价值函数这一节中，1式是马尔科夫奖励过程，未涉及动作，如果考虑动作也就成了马尔科夫决策过程，应该推导成下面这种形式
在这里插入图片描述
11.最优策略、最优状态价值函数、最优动作价值函数

12.贝尔曼最优方程

原文地址:https://blog.csdn.net/Ever_____/article/details/136838777 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1775463271118278656.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-04-03 18:00:05 117 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-04-03 18:00:05 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-04-03 18:00:05 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-04-03 18:00:05 101 阅读
NoSQL之Redis非关系型数据库

2024-04-03 18:00:05 101 阅读
2024.7.22 作业

2024-04-03 18:00:05 98 阅读
GDB调试正在运行的程序

2024-04-03 18:00:05 82 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-04-03 18:00:05 85 阅读
在Django里面运行非项目文件

2024-04-03 18:00:05 82 阅读
SSD基本架构与工作原理

2024-04-03 18:00:05 87 阅读
在誉天学习完HCIE就业吗？

2024-04-03 18:00:05 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-04-03 18:00:05 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-04-03 18:00:05 86 阅读
go 协程池的实现

2024-04-03 18:00:05 89 阅读
Shell脚本循环语句与函数

2024-04-03 18:00:05 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-04-03 18:00:05 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-04-03 18:00:05 85 阅读
四大引用——强软弱虚

2024-04-03 18:00:05 86 阅读
Python语言-面向对象

2024-04-03 18:00:05 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-04-03 18:00:05 85 阅读
网站安全-CDN篇

2024-04-03 18:00:05 89 阅读

热门阅读

浅谈无文件攻击

2024-04-03 18:00:05 38 阅读
P1352 没有上司的舞会【深搜树型DP】

2024-04-03 18:00:05 40 阅读
Solidity Uniswap V2 Router swapExactTokensForTokens

2024-04-03 18:00:05 38 阅读
SpringSecurity2

2024-04-03 18:00:05 40 阅读
【编译lombok问题】已解决：编译突然找不到符号问题-get/set找不到符号

2024-04-03 18:00:05 38 阅读
free函数的用法和注意事项

2024-04-03 18:00:05 34 阅读
LeetCode题练习与总结：螺旋矩阵

2024-04-03 18:00:05 40 阅读
一定要收藏的几个在线文档编辑器

2024-04-03 18:00:05 39 阅读
统筹学问题

2024-04-03 18:00:05 35 阅读
R2GenCMN中的Encoder_Decoder结构

2024-04-03 18:00:05 28 阅读
基于Spring Boot的高校科研信息管理系统

2024-04-03 18:00:05 37 阅读
大数据时代的生物信息学：挖掘生命数据，揭示生命奥秘

2024-04-03 18:00:05 42 阅读
大数据学习十二天（补hadoop基础1）

2024-04-03 18:00:05 42 阅读
C 函数指针与回调函数

2024-04-03 18:00:05 32 阅读
Docker 部署 FRP 内网穿透实现端口映射

2024-04-03 18:00:05 39 阅读
深度学习该如何入门？

2024-04-03 18:00:05 35 阅读
Docker入门

2024-04-03 18:00:05 32 阅读
流域生态系统水-碳-氮耦合过程模拟

2024-04-03 18:00:05 38 阅读
docker基础学习指令

2024-04-03 18:00:05 79 阅读
第四章相关内容

2024-04-03 18:00:05 35 阅读
【MySQL】数据类型2

2024-04-03 18:00:05 38 阅读
01 Python进阶：正则表达式

2024-04-03 18:00:05 39 阅读
OpenCV轮廓分析

2024-04-03 18:00:05 41 阅读
大语言模型中常见小模型LLM垂直领域应用微调数据集

2024-04-03 18:00:05 65 阅读
UTONMOS：AI+Web3+元宇宙数字化“三位一体”将触发经济新爆点

2024-04-03 18:00:05 33 阅读
前端三剑客 —— HTML （下）

2024-04-03 18:00:05 59 阅读
编写HTML文件时的注意事项

2024-04-03 18:00:05 46 阅读
【Python异常处理】

2024-04-03 18:00:05 36 阅读
谈谈考研数学几个常见误区

2024-04-03 18:00:05 31 阅读
单元测试——Junit （断言、常用注解）

2024-04-03 18:00:05 33 阅读