【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程,贝尔曼最优方程推导过程

【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程,贝尔曼最优方程推导过程

1.回报
在这里插入图片描述
2.当前时刻的回报与下一时刻回报的关系
在这里插入图片描述
3.状态价值函数
在这里插入图片描述

4.动作价值函数
在这里插入图片描述
在这里插入图片描述
5.状态价值函数与动作状态价值函数的关系
在这里插入图片描述
在这里插入图片描述
6.贝尔曼期望方程
在这里插入图片描述

7.状态价值函数的贝尔曼期望方程
在这里插入图片描述
8.动作价值函数的贝尔曼期望方程
在这里插入图片描述
9.贝尔曼期望方程的另一种理解方式,结合下图理解
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

10.一点疑惑在这里插入图片描述

上图中的1式和2式右边部分形式相同,那么可得q(s,a)与v(s)相等,这么理解肯定是错误的;1式是在动手学强化学习的3.3.2 价值函数这一节中,1式是马尔科夫奖励过程,未涉及动作,如果考虑动作也就成了马尔科夫决策过程,应该推导成下面这种形式
在这里插入图片描述
11.最优策略、最优状态价值函数、最优动作价值函数
在这里插入图片描述
12.贝尔曼最优方程
在这里插入图片描述

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-03 18:00:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-03 18:00:05       101 阅读
  3. 在Django里面运行非项目文件

    2024-04-03 18:00:05       82 阅读
  4. Python语言-面向对象

    2024-04-03 18:00:05       91 阅读

热门阅读

  1. 浅谈无文件攻击

    2024-04-03 18:00:05       38 阅读
  2. P1352 没有上司的舞会 【深搜树型DP】

    2024-04-03 18:00:05       40 阅读
  3. Solidity Uniswap V2 Router swapExactTokensForTokens

    2024-04-03 18:00:05       38 阅读
  4. free函数的用法和注意事项

    2024-04-03 18:00:05       34 阅读
  5. 基于Spring Boot的高校科研信息管理系统

    2024-04-03 18:00:05       37 阅读
  6. C 函数指针与回调函数

    2024-04-03 18:00:05       32 阅读
  7. 深度学习该如何入门?

    2024-04-03 18:00:05       35 阅读
  8. 【MySQL】数据类型2

    2024-04-03 18:00:05       38 阅读
  9. OpenCV轮廓分析

    2024-04-03 18:00:05       41 阅读
  10. 编写HTML文件时的注意事项

    2024-04-03 18:00:05       46 阅读