[发明专利]一种基于合作式多智能体强化学习的交通信号灯控制方法在审
申请号: | 202210638529.0 | 申请日: | 2022-06-07 |
公开(公告)号: | CN115083174A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 任付越;赵晓东;张帆;董伟;赵晓丹;孔亚广;邹洪波 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G08G1/07 | 分类号: | G08G1/07;G08G1/08 |
代理公司: | 杭州奥创知识产权代理有限公司 33272 | 代理人: | 王佳健 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 合作 智能 强化 学习 交通 信号灯 控制 方法 | ||
1.一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于该方法包括以下步骤:
步骤一:构建道路交叉口和交通信号灯的路网模型;
步骤二:基于强化学习的交通信号灯控制模型构建;
(a)状态空间State设计
对于单个交叉口,使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态;
(b)动作空间Action设计
设计四种动作分别为:南北方向直行、南北方向左转、东西方向直行、东西方向左转;
(c)奖励函数Reward设计
时间步t时刻的奖励函数:
R=kRE+(1-k)RW
其中,k为权重系数,RE表示车辆排放部分奖励函数,RW表示车辆等待时间部分奖励函数;
步骤三:构建合作式多智能体强化学习模型;
所述合作式多智能体强化学习模型包括个体价值网络,邻近价值网络,全局价值网络和策略网络;该模型的输入为路网中各个路口的交通状态,输出信息为四种动作的概率值,并根据动作概率值进行随机抽样选择动作;
所述合作式多智能体强化学习模型采用了局部合作机制和全局合作机制,其中局部合作机制利用局部合作因子来权衡个体奖励和邻近奖励,全局合作机制通过梯度更新协调因子来最大化全局目标;
步骤四:信号灯控制Agent学习信号灯控制策略;
将单个信号灯控制Agent的局部观测信息输入个体价值网络,所述信号灯控制Agent在环境中获取奖励和下一时刻的观测信息,更新所述Agent的个体价值网络参数;
将所述信号控制Agent的个体奖励信息和邻近信号控制Agent的奖励信息输入邻近价值网络;为求得局部合作因子,将所有信号灯控制Agent的奖励输入全局价值网络来寻找最优的局部合作因子;
通过对全局目标进行梯度运算来实现双层全局协调,将得到的最优局部合作因子输入策略网络,并在动作空间中选择最合适的动作发送给路网环境,路网执行动作并转移到下一个状态。
2.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于:步骤一中所述路网模型使用交通仿真软件SUMO附带的软件Netedit搭建;
其中搭建的道路交叉口中,分为左转、直行和右转车道;
其中交通信号灯的控制分信号分别为:南北方向直行、南北方向左转、东西方向直行、东西方向直行,在上述四个相位切换之间设计一个黄信号灯进行过渡。
3.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于:步骤二中所述车辆排放部分奖励函数使用执行动作前后车辆的排放差。
4.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于:所述的策略价值网络根据局部合作机制和全局合作机制组成的双层协调来确定目标智能体的动作。
5.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于:所述的合作式多智能体强化学习模型使用集中式训练分散式执行框架,所述集中式训练是通过全局信息进行决策计算,然后每个智能体根据全局决策信息和自身状态分布式执行;在集中训练期间首先通过局部合作提出单个智能体的学习目标,然后通过混合奖励来协调智能体的邻近目标,通过优化局部合作过程,从而实现全局合作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210638529.0/1.html,转载请声明来源钻瓜专利网。