Policy Gradient-优化动作选择函数

昨天收到一个新的订阅通知,很是欣喜,感谢订阅同学的支持。

还以为这个专栏没有人关注了呐,一直也没什么兴趣更新。

为了回馈大家的支持,继续更新一篇。

今天写一下强化学习力的 Policy Gradient,这个之前的时候一直不太懂了,回头看确实蛮简单的。

1、Policy Gradient 到底咋回事

强化学习四要素:状态(state)、动作(action)、策略(policy)、奖励(reward)。

名词 解释
智能体 学习器与决策者的角色。
环境 智能体之外一切组成的、与之交互的事物。
动作 智能体的行为表征。
状态 智能体从环境获取的信息。
奖励 环境对于动作的反馈。
策略 智能体根据状态进行下一步动作的函数。
状态转移概率 智能体做出动作后进入下一状态的概率。

Policy Gradient 翻译过来就是策略梯度,就是训练策略这个神经网络。

2、损失函数是什么?

Policy Gradient 是不存在 具体的损失,是通过动作的好坏来判断。

动作的好坏是根据reward进行实现。

举个例子:

在 某一 状态 下,假如可以选择三种动作,可以选择  前进,后退,跳,并且没有其他的选择

相关推荐

  1. Policy Gradient-优化动作选择函数

    2024-04-08 17:08:05       12 阅读
  2. 人工智能之函数优化和组合优化

    2024-04-08 17:08:05       27 阅读
  3. 重构与优化-优化函数调用(5)

    2024-04-08 17:08:05       8 阅读
  4. 使用函数选择法排序

    2024-04-08 17:08:05       38 阅读
  5. 函数模板案例---选择排序算法

    2024-04-08 17:08:05       17 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-08 17:08:05       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-08 17:08:05       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-08 17:08:05       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-08 17:08:05       18 阅读

热门阅读

  1. Spring Cloud五大组件以及工作原理

    2024-04-08 17:08:05       15 阅读
  2. 前端js获取当hppt协议

    2024-04-08 17:08:05       15 阅读
  3. 想做产品经理,应该选择什么专业?

    2024-04-08 17:08:05       16 阅读
  4. 1368:对称二叉树(tree_c)

    2024-04-08 17:08:05       16 阅读
  5. c++组合requires语句

    2024-04-08 17:08:05       18 阅读
  6. 蓝桥杯第十五届抱佛脚(十)贪心算法

    2024-04-08 17:08:05       17 阅读
  7. Git Flow困境逃脱指南

    2024-04-08 17:08:05       15 阅读
  8. Go-学会使用切片

    2024-04-08 17:08:05       15 阅读
  9. RPM换算成m/s或m/min

    2024-04-08 17:08:05       16 阅读
  10. GO - 标准库

    2024-04-08 17:08:05       15 阅读
  11. Hamilton-Jacobi-Bellman (HJB) 方程

    2024-04-08 17:08:05       17 阅读