Policy Gradient-优化动作选择函数

2024-04-08 17:08:05
开发
11

昨天收到一个新的订阅通知，很是欣喜，感谢订阅同学的支持。

还以为这个专栏没有人关注了呐，一直也没什么兴趣更新。

为了回馈大家的支持，继续更新一篇。

今天写一下强化学习力的 Policy Gradient，这个之前的时候一直不太懂了，回头看确实蛮简单的。

1、Policy Gradient 到底咋回事

强化学习四要素：状态(state)、动作(action)、策略（policy）、奖励(reward)。

名词	解释
智能体	学习器与决策者的角色。
环境	智能体之外一切组成的、与之交互的事物。
动作	智能体的行为表征。
状态	智能体从环境获取的信息。
奖励	环境对于动作的反馈。
策略	智能体根据状态进行下一步动作的函数。
状态转移概率	智能体做出动作后进入下一状态的概率。

Policy Gradient 翻译过来就是策略梯度，就是训练策略这个神经网络。

2、损失函数是什么？

Policy Gradient 是不存在具体的损失，是通过动作的好坏来判断。

动作的好坏是根据reward进行实现。

举个例子：

在某一状态下，假如可以选择三种动作，可以选择前进，后退，跳，并且没有其他的选择

原文地址:https://blog.csdn.net/perfect2011/article/details/137498698 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1777262125392203776.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

Centos7安装jdk

2024-04-08 17:08:05 14 阅读
Python基础语法及应用

2024-04-08 17:08:05 13 阅读
Spring Cloud五大组件以及工作原理

2024-04-08 17:08:05 15 阅读
前端js获取当hppt协议

2024-04-08 17:08:05 15 阅读
解决数据库事务: 构建高效、可靠和灵活的事务管理系统（四）

2024-04-08 17:08:05 12 阅读
想做产品经理，应该选择什么专业？

2024-04-08 17:08:05 16 阅读
1368：对称二叉树(tree_c)

2024-04-08 17:08:05 16 阅读
c++组合requires语句

2024-04-08 17:08:05 18 阅读
FIN和RST的区别，几种TCP连接出现RST的情况

2024-04-08 17:08:05 15 阅读
Linux/Ubuntu/Debian中与进程和系统资源有关的命令top/ps

2024-04-08 17:08:05 17 阅读
万能小in写论文查重率高吗？

2024-04-08 17:08:05 17 阅读
蓝桥杯第十五届抱佛脚（十）贪心算法

2024-04-08 17:08:05 17 阅读
区块链相关概念

2024-04-08 17:08:05 16 阅读
AI投研分析，模块化赛道可能会出现新的头部公链

2024-04-08 17:08:05 17 阅读
SpringCloud学习(11)-SpringCloudAlibaba-Nacos数据模型

2024-04-08 17:08:05 13 阅读
Git Flow困境逃脱指南

2024-04-08 17:08:05 15 阅读
Go-学会使用切片

2024-04-08 17:08:05 15 阅读
RPM换算成m/s或m/min

2024-04-08 17:08:05 16 阅读
RN实现摄像头扫码功能

2024-04-08 17:08:05 14 阅读
初识MySQL(下篇)

2024-04-08 17:08:05 18 阅读
NXopen C++面的质心、面积、周长测量 NewFaceProperties NewMassProperties

2024-04-08 17:08:05 15 阅读
Python项目1 外星人入侵

2024-04-08 17:08:05 19 阅读
MyBatis缓存配置

2024-04-08 17:08:05 15 阅读
【算法基础】选择排序与冒泡排序的思想与实现

2024-04-08 17:08:05 14 阅读
GO - 标准库

2024-04-08 17:08:05 15 阅读
R语言数据可视化：基本绘图系统

2024-04-08 17:08:05 13 阅读
6款支持国产系统电脑使用的办公软件，满足信创用户办公需求

2024-04-08 17:08:05 16 阅读
Hamilton-Jacobi-Bellman (HJB) 方程

2024-04-08 17:08:05 17 阅读
中国农业银行内蒙古自治区分行营业网点装修改造供应商入围项目招标公告

2024-04-08 17:08:05 15 阅读
【ARM 裸机】硬件平台简介

2024-04-08 17:08:05 14 阅读