[发明专利]基于双阶段注意力机制和深度强化学习的信号灯控制方法有效
申请号: | 202111214138.8 | 申请日: | 2021-10-19 |
公开(公告)号: | CN114038212B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 周大可;邱存孝;杨欣;吴庆宪 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G08G1/07 | 分类号: | G08G1/07;G06N3/045;G06N3/0442;G06N3/047;G06N3/048;G06N3/092 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 阶段 注意力 机制 深度 强化 学习 信号灯 控制 方法 | ||
1.一种基于双阶段注意力机制和深度强化学习的信号灯控制方法,其特征在于,包括以下步骤:
(1)根据交叉口路段的实际情况,建立能够反映当前交通网络状态的张量;
(2)利用双阶段注意力机制网络进行状态预处理;第一层注意力机制循环神经网络f1自适应地选取每个时间步状态xt的各特征,掌握交通状态空间分布细节信息;第二层注意力机制循环神经网络f2以每个时间步的前三个历史状态为输入,利用交通状态时序相关性大的特点增强信控模型的主动控制能力;
(3)基于深度强化学习算法A2C建立交叉口信号控制神经网络模型;
(4)利用PPO算法训练交叉口信号控制神经网络模型:利用SUMO搭建路网和车流的仿真环境,神经网络模型通过SUMO的Traci接口与仿真环境交互,将步骤(2)中预处理后的状态作为强化学习的状态/利用PPO算法训练网络得到最优的交叉口信号控制神经网络模型;
(5)将交叉口的当前相位与最优的交叉口信号控制神经网络模型输出的特征进行拼接,作为Actor动作概率网络的输入;根据Actor动作概率网络输出的动作概率选择交叉口信号灯控制模型的最终相位结果;
步骤(3)所述建立的交叉口信号灯控制神经网络模型包括第一层循环神经网络GRU、第二层循环神经网络GRU,第三层到第六层为全连接神经网络;所述第一层循环神经网络GRU为步骤2中第一层注意力机制的循环神经网络f1;所述第二层循环神经网络GRU为步骤2中的第二层注意力机制循环神经网络f2;所述第六层全连接神经网络将上一层网络的输出与当前相位状态进行拼接作为输入,输出分别是Actor动作概率网络和Critic价值网络;
所述步骤(4)包括以下步骤:
(41)分别建立基于随机参数θa的Actor动作网络和基于随机参数θc的Critic评价网络作为新策略网络π',再分别建立与Actor动作网络和Critic评价网络结构完全一样的旧策略网络π;
(42)初始化神经网络参数、交通仿真的状态和仿真次数、轨迹池;
(43)在每个决策时间步,将从当前仿真窗口获取的状态St输入到旧策略π的Actor网络,状态经过两层循环神经网络预处理后,Actor网络根据输出概率参数随机选择一个动作,SUMO仿真软件根据选择的动作执行对应的相位,并获取环境反馈的奖励Rt和下一个St+1;
(44)利用OpenAI提出的PPO2算法,构建目标函数,通过与环境不断交互学习过程中,得到最优的交叉口信号灯控制模型;所述目标函数为:
其中,ε表示clip的阈值,Aθ’(st,at)表示优势函数,ratio表示新老策略比值:
2.根据权利要求1所述的基于双阶段注意力机制和深度强化学习的信号灯控制方法,其特征在于,所述步骤(1)包括以下步骤:
(11)对进入交叉口的各路段车道按照与交叉口的距离进行等距元胞划分,得到每个车道的交通状态信息;
(12)重复步骤(11),将各个方向的车道信息进行拼接,得到一个包含各个车道信息的状态向量;
(13)采用四相位进行动作设计,分别对应交叉口4种绿灯相位:南北方向绿灯,东西方向绿灯,南北方向左转绿灯和东西方向左转绿灯;
(14)将瞬时奖励R定义为相邻时间步t之间路口所有车辆的累计平均等待时间之差:
Rt=α(TT+1-Tt) (4)
其中,Tt是第t个时间步内路网所有车辆的累计平均等待时间,Tt+1是第t+1个时间步内路网所有车辆的累计平均等待时间,α是常量,避免奖励值范围波动过大。
3.根据权利要求1所述的基于双阶段注意力机制和深度强化学习的信号灯控制方法,其特征在于,所述步骤(2)包括以下步骤:
(21)第一层注意力机制循环神经网络自适应地选取状态各特征:对于当前时刻的状态输入xt∈Rn,引入注意力机制自适应地选取各个特征,即对t时刻状态xt;xt的不同特征包含的是不同车道和距离交叉口不同距离的交通状态元胞信息;神经网络为各个特征赋予一定的注意力权重衡量了t时刻输入xt的第k个特征的重要性;
(22)第二层注意力机制循环神经网络用于处理状态序列预测问题;对于当前时刻t,建立当前时刻状态与前两个时间步的状态/以及当前时刻t的输出/之间的关系;进入注意力机制,利用不同的网络参数,对不同时刻的/采用不同的权重系数,取t时刻状态/以及t时刻前两个时间步状态/和/得到/
即为强化学习网络模型真正的输入状态。/
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111214138.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种连续热浸镀锌高强钢板及其制造方法
- 下一篇:一种保湿型干眼症用中药冷敷贴