[发明专利]基于深度强化学习的路口交通信号自适应控制方法在审
申请号: | 202210503173.X | 申请日: | 2022-05-09 |
公开(公告)号: | CN114913685A | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 高万宝;尹少东;吕红振;张超;解寅萍;杨丹 | 申请(专利权)人: | 南京掘码网络科技有限公司 |
主分类号: | G08G1/01 | 分类号: | G08G1/01;G08G1/07 |
代理公司: | 鄂尔多斯市金筹专利代理事务所(普通合伙) 15112 | 代理人: | 孔炜 |
地址: | 210001 江苏省南京市秦*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 路口 交通信号 自适应 控制 方法 | ||
1.一种基于深度强化学习的路口交通信号自适应控制方法,包括如下步骤:
步骤1.定义基于深度强化学习与卷积神经网络的算法控制器,定义状态空间S、动作空间A和回报函数R;
步骤2.使用深度强化学习方法对卷积神经网络进行训练;
步骤3.依据训练好的算法控制器进行路口交通信号控制;
其特征在于,步骤1具体如下:
步骤1.1.使用深度强化学习方法构建卷积神经网络Q;
具有用于存储样本s,a,r,s'的样本池D,其中s表示当前交通状态,a表示选取的执行动作,r为回报值,s'为执行动作a后转移到的下一交通状态;卷积神经网络依次设输入层、卷积层、全连接层及输出层,输入层为当前交通状态s,输出层为当前交通状态s下所有执行动作a的值估计Q(s,a);
步骤1.2.定义当前交通状态s;
将路口停车线以外的车道进行离散化处理,分成J个道段,每各道段为一元胞,元胞内最大容纳车辆数为Cmax-j,元胞内实际车辆数为Cr-j,元胞的第一个特征值饱和率表示为Cr-j/Cmax-j;元胞内车辆最高速度为Smax-n,元胞内车辆实际平均速度为Savg-j,最元胞的第二个特征值车速比表示为Savg-j/Smax-j;
即J×2维矩阵
用来表示当前交通状态s;
步骤1.3.定义动作空间A;
路口交通信号采用四相位按固定相序周期循环,相位一为X向直行及右转,相位二为X向左转,相位三为Y向直行及右转,相位四为Y向左转,四元组<t1,t2,t3,t4>表示当前周期下四个相位的绿灯持续时间;执行动作a=<t’1,t’2,t’3,t’4>,其中t’1、t’2、t’3、t’4分别表示下一周期下四个相位的绿灯持续时间;动作空间A为执行动作a的集合;
步骤1.4.定义回报函数R;
将车道内车辆的速度、延迟时间及最靠近停车线的若干道段内车辆的数量变化综合作为回报值r,回报函数为
其中,c1、c2及c3为权重,v为车辆当前速度,d为车辆延迟时间,k为当前车道内车辆总数,l为单一道段内车辆的数量,m为最靠近停车线的道段数量;R>0,表示回报为奖励,R<0,表示回报为惩罚。
2.根据权利要求1所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,步骤1.2中,从路口停车线向远处的N个道段,各道段的长度逐渐增加。
3.根据权利要求1所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,步骤1.3中,满足
t1+t2+t3+t4=t’1+t’2+t’3+t’4,即四相位的当前周期与下一周期的时间总长相等。
4.根据权利要求3所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,
步骤1.3中,执行动作a为对t1、t3与t2、t4中的一组作一增一减的调整或保持不变,调整量为Δt1,执行动作a具有5种情形
即为动作空间A。
5.根据权利要求1所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,
步骤1.3中,执行动作a为对t1、t2、t3、t4中任一个值增减一个固定调整量Δt2或保持不变,执行动作a具有9种情形
即为动作空间A。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京掘码网络科技有限公司,未经南京掘码网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210503173.X/1.html,转载请声明来源钻瓜专利网。