01多智能体交互模型:标准博弈与随机博弈


前言

多智能体强化学习——博弈论模型


一、博弈分层模型

在这里插入图片描述

1.Normal-form game(标准博弈)

标准博弈:在这里插入图片描述
每个智能体采取策略,根据策略采取对应的动作,所有动作组成联合动作空间,每个智能体根据奖励函数与联合动作空间获取奖励。

根据奖励的不同分类

在这里插入图片描述
主要分为三类:零和博弈、共同利益博弈、一般和博弈
零和博弈:所有智能体的奖励和为0;共同利益博弈:所有智能体采取相同的动作获取相同的奖励;一般和博弈:不同智能体之间的奖励函数没有关系

repeated Normal-form game

标准博弈描述了多个智能体的单次交互过程,通过重复标准博弈获得多次交互,得到一个序列的博弈过程。在第t个时间步,每个智能体根据随机性的策略采取相应的动作,第t个时间步的策略受到t时刻之前的联合动作的影响, h t = { a 0 , a 1 , . . . . . , a t − 1 } h^t=\{a^0,a^1,.....,a^{t-1}\} ht={ a0,a1,.....,at1},其中 a t = { a 1 t , a 2 t , . . . . . , a n t } a^t=\{a_1^t,a_2^t,.....,a_n^t\} at={ a1t,a2t,.....,ant},每个智能体在t时刻根据联合动作获取到对应的奖励。

有限重复博弈与无限重复博弈

一般并不相同,有限过程会受到“end-game”的影响,智能体采取动作时会倾向选择靠近游戏结束的动作,而无限过程,可以指定每一步游戏结束的概率。

更复杂的策略

在第t个时间步,策略是由过去的整个联合状态决定的,与其内部的历史联合动作序列相关( f ( h t ) f(h^t) f(ht)),随机策略更加复杂。

2.随机博弈

随机博弈:
在这里插入图片描述
在这里插入图片描述
随机博弈过程:根据初始状态分布,在t时刻每个智能体观测当前的环境 s t s^t st,根据随机策略 π i ( a i t ∣ h t ) \pi_i (a_i^t|h^t) πi(aitht),采取动作 a i t a_i^t ait,产生t时刻的联合动作 a t = { a 1 t , a 2 t , . . . . . , a n t } a^t=\{a_1^t,a_2^t,.....,a_n^t\} at={ a1t,a2t,.....,ant}。随机策略是在历史序列的条件下选择动作,其中 h t = ( s 0 , a 0 , s 1 , a 1 , . . . . , s t ) h^t=(s^0,a^0,s^1,a^1,....,s^t) ht=(s0,a0,s1,a1,....,st),对于每个智能体都是全部可观测的。获取到t时刻的联合动作后,根据当前状态转移到新的状态 T ( s t , a t , s t + 1 ) \mathcal{T}(s^t,a^t,s^{t+1}) T(st,at,st+1),每个智能体会得到对应的奖励 r i t = R i ( s t , a t , s t + 1 ) r_i^t=\mathcal{R}_i(s^t,a^t,s^{t+1}) rit=Ri(st,at,st+1),经过许多时间步长后,终止在最终状态(有限过程)。

马尔科夫性

随机博弈过程遵循马尔科夫性质,下一时刻的状态与奖励只与当前的状态有关。
Pr ⁡ ( s t + 1 , r t ∣ s t , a t , s t − 1 , a t − 1 , . . . , s 0 , a 0 ) = Pr ⁡ ( s t + 1 , r t ∣ s t , a t ) \Pr(s^{t+1},r^t\mid s^t,a^t,s^{t-1},a^{t-1},...,s^0,a^0)=\Pr(s^{t+1},r^t\mid s^t,a^t) Pr(st+1,rtst,at,st1,at1,...,s0,a0)=Pr(st+1,rtst,at)
因此随机博弈也称为马尔科夫博弈过程。

repeated 标准博弈、随机博弈图示

在这里插入图片描述

最近更新

  1. TCP协议是安全的吗?

    2024-01-10 12:14:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-10 12:14:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-10 12:14:02       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-10 12:14:02       20 阅读

热门阅读

  1. docker-宿主机与容器的命令执行方法

    2024-01-10 12:14:02       35 阅读
  2. Actor-Model和Reward-Model

    2024-01-10 12:14:02       29 阅读
  3. 数据结构-怀化学院期末题

    2024-01-10 12:14:02       31 阅读
  4. Elasticsearch ES实现GEO位置搜索

    2024-01-10 12:14:02       41 阅读
  5. 前端面试 -- vue系列(1)

    2024-01-10 12:14:02       30 阅读
  6. SpringMVC--处理json

    2024-01-10 12:14:02       31 阅读
  7. springboot配置文件(三)加载外部配置文件

    2024-01-10 12:14:02       38 阅读