昨天收到一个新的订阅通知,很是欣喜,感谢订阅同学的支持。
还以为这个专栏没有人关注了呐,一直也没什么兴趣更新。
为了回馈大家的支持,继续更新一篇。
今天写一下强化学习力的 Policy Gradient,这个之前的时候一直不太懂了,回头看确实蛮简单的。
1、Policy Gradient 到底咋回事
强化学习四要素:状态(state)、动作(action)、策略(policy)、奖励(reward)。
名词 | 解释 |
---|---|
智能体 | 学习器与决策者的角色。 |
环境 | 智能体之外一切组成的、与之交互的事物。 |
动作 | 智能体的行为表征。 |
状态 | 智能体从环境获取的信息。 |
奖励 | 环境对于动作的反馈。 |
策略 | 智能体根据状态进行下一步动作的函数。 |
状态转移概率 | 智能体做出动作后进入下一状态的概率。 |
Policy Gradient 翻译过来就是策略梯度,就是训练策略这个神经网络。
2、损失函数是什么?
Policy Gradient 是不存在 具体的损失,是通过动作的好坏来判断。
动作的好坏是根据reward进行实现。
举个例子:
在 某一 状态 下,假如可以选择三种动作,可以选择 前进,后退,跳,并且没有其他的选择