▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch0 一张图讲完强化学习原理

PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍

  • 1、视频 + 学堂在线 习题
  • 2、相应章节 过电子书 [2023.8 版本] 复习
  • 3、总体 MOOC 过一遍

学堂在线 课程页面链接
中国大学MOOC 课程页面链接
B 站 视频链接

PPT和书籍下载网址: 【github链接】
onedrive链接:
【书】
【课程PPT】

这种颜色表示 是 查看 PDF 电子书 后补充的笔记


如何学习强化学习?
1、原理 [算法背后的原理] 【本课程】
2、实践和编程

为何要了解算法背后的原理?

  • 了解算法的原理是什么?它在做什么样的事情?有什么优势?有什么劣势?创新可以从哪些方面入手?

给目标分配合适的时间

不存在 速成 !!! ——> 充裕的时间,心态平和,稳扎稳打。

数学性强,系统性强。

预计 40 小时 ——> 可阅读论文

目标:不仅能知道 算法的过程,还能理解为什么要设计这个算法,为什么它能有效地工作。

在这里插入图片描述

第 1 章 基本概念

在这里插入图片描述

第 2 章 状态值 和 贝尔曼公式

在这里插入图片描述

状态值: 用于评价一个策略的好坏。
贝尔曼公式:描述了 所有状态 和 状态值 之间的关系。

策略评价:求解贝尔曼公式进而得到一个策略所对应的状态值

——————
状态值: agent 在遵循给定策略的情况下从某个状态出发时所能获得的预期收益。状态值越大,对应的策略越好。

  • 状态值可以用来评估策略是好还是坏。

Bellman 方程描述了所有状态值之间的关系。
通过求解 Bellman 方程,可以得到状态值。这样的过程被称为策略评估

——————

第 3 章 最优策略 [ 贝尔曼最优公式 ]

在这里插入图片描述

强化学习的终极目标: 求解最优策略
最优策略:能获得最大的状态值

第 4 章 值迭代 和 策略迭代

在这里插入图片描述

值迭代、策略迭代、截断策略迭代

  • 前两个是第三个的特例

贝尔曼最优公式 值迭代

有一个不太好的策略——> 估计策略的值 【策略评价】,根据值改进策略——> 估计 新的策略 的值 , 改进策略——>…

动态规划 需要模型

第 5 章 model-free 的强化学习 算法

在这里插入图片描述

学习 随机变量 的期望值

数据 or 模型

强化学习中的“数据”是 指智能体与环境交互时产生的经验样本。

MC Basic: 策略迭代 中 依赖模型的部分 去掉,替换成依赖数据的

  • 实际不可用,效率很低

——————
要研究 MC 算法 (第 5 章),首先要了解 策略迭代算法(第 4 章)。要研究策略迭代算法,首先要了解 值迭代 算法(第 4 章)。要了解值迭代算法,首先要了解 Bellman 最优性方程(第 3 章)。要了解 Bellman 最优性方程,首先要了解 Bellman 方程(第 2 章)。因此,强烈建议逐一学习。否则,可能难以理解后面各章的内容。
Bellman 方程(第 2 章) ——> Bellman 最优性方程(第 3 章) ——> 值迭代 算法(第 4 章) ——> MC 算法 (第 5 章)

在这里插入图片描述

————————

第 6 章 随机逼近 理论

在这里插入图片描述

随机逼近是指解决 寻根 或 优化问题 的一类广泛的随机迭代算法。经典的 Robbins-Monro 算法和 随机梯度下降 算法 是特殊的 随机逼近 算法。

第 7 章 时序差分方法 【增量】

在这里插入图片描述

学习 状态值:用模型来计算(第 4 章)、用蒙特卡洛方法学习(第 5 章),用 TD 方法学习(第 7 章)。

Q-learning: 离线 直接学习最优动作值

两种策略: behavior policy, 生成经验数据的。target policy, 不断改进目标策略

off-policy: behavior policy 和 target policy 可以不同。

  • 可用 之前别的策略所生成的数据。

on-policy: behavior policy 和 target policy 相同。

  • 每次接收到 经验样本时 更新值估计。

TD 算法:求解 Bellman 或 Bellman最优性方程 的随机逼近算法。

model-free、增量。

第 8 章 值函数 近似 [神经网络]

在这里插入图片描述
表格 或 向量 形式的状态值

状态非常多 或 状态连续。 表格效率低下——> 函数 (神经网络)

状态值 估计步骤:
1、明确 目标函数 定义最优策略
2、求 目标函数 梯度
3、用 梯度上升 或 下降 对 目标函数 进行优化

在这里插入图片描述

9 - 10 章 policy-based 方法

value-based VS policy-based
value-based:目标函数 J ( w ) J(w) J(w),w 是值函数的参数,更新值函数的参数使得这个值函数能够很好地近似或者估计出来 一个策略 所对应的值, 在此基础上再更新策略,得到新的策略,然后再估计它的值。不断迭代找到最优的策略。
policy-based:目标函数 J ( θ ) J(\theta) J(θ) θ \theta θ 是 策略的参数, 直接优化 θ \theta θ , 直接改变策略,慢慢找到最优的策略

三步走:
1、找 目标函数
2、目标函数 梯度
3、用梯度上升 或 下降 优化 目标函数

在这里插入图片描述

策略 和 值 交叉迭代

求出值 ——> 更新策略 ——> 求值 ——> 更新策略…

最近更新

  1. TCP协议是安全的吗?

    2024-06-17 14:26:06       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-17 14:26:06       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-17 14:26:06       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-17 14:26:06       20 阅读

热门阅读

  1. 代码随想三刷栈与队列篇

    2024-06-17 14:26:06       7 阅读
  2. 学习笔记——交通安全分析06

    2024-06-17 14:26:06       7 阅读
  3. PHP框架详解 - symfony框架

    2024-06-17 14:26:06       11 阅读
  4. Web前端三大主流框架介绍

    2024-06-17 14:26:06       5 阅读
  5. Android 放大镜代码

    2024-06-17 14:26:06       6 阅读
  6. ThreadLocal 详讲

    2024-06-17 14:26:06       5 阅读
  7. FileUtils类中常用方法的介绍

    2024-06-17 14:26:06       6 阅读
  8. HIVE及SparkSQL优化经验

    2024-06-17 14:26:06       9 阅读
  9. Docker Desktop Installer For Windows 国内下载地址

    2024-06-17 14:26:06       5 阅读