输入
综合信息(车辆信息和道路信息)
高维矩阵(实际上大部分都不采用高维矩阵而是状态向量,此处仅帮助理解)
车辆数量 [5,13,7,12] 物理含义:分别代表东南西北四个方向的车辆数量
信号灯状态 [0,1,0,1] 物理含义:表示北和南方向是红灯,东和西方向是绿灯
排队长度 [13,0,12,0] 物理含义:分别表示因为信号灯而阻塞的车辆
车辆等待时间 [60,0,60,0] 物理含义:分别代表东南西北四个方向的车辆平均等待时间
车辆速度 [0,10,0,10] 物理含义:分别代表东南西北四个方向的车辆平均速度
状态向量
- 东方向的状态向量:[5,0,13,60,0]
- 南方向的状态向量:[13,1,0,0,10]
- 西方向的状态向量:[7,0,12,60,0]
- 北方向的状态向量:[12,1,0,0,10]
为什么不直接使用高维矩阵,而要采用状态向量?
将动作和奖励整合到状态向量中,以形成一个完整的强化学习输入。
完整的强化学习输入示例:
假设当前的动作是将东和西方向切换到红灯,其他方向切换到绿灯,我们的动作向量可以是:
- 动作向量:[1,0,1,0]
假设执行上述动作后,新的车辆等待时间变为北和南方向0秒(因为车辆可以立即通过),东和西的等待时间开始增加。我们将计算新的奖励。
将这些信息整合到状态向量中,我们得到:
输出
FRAP模型的输出是一个向量,其中每个数值代表一个可能动作的Q值,模型通过选择具有最高Q值的动作来进行决策。
优化目标
1.最小平均车辆排队长度
2.最小平均车辆延误
3.最大平均车速
约束条件
交通规则:信号控制必须遵守交通规则,例如,不允许相向直行的车辆同时获得绿灯。
信号灯阶段的互斥性:某些信号灯阶段是互斥的,不能同时激活,以避免交通冲突。
泛化能力:模型需要能够适应不同的交通条件和交叉口结构,具有跨场景的泛化能力。
计算效率:模型的决策过程需要在有限的时间内完成,以适应实时信号控制的需求。