[发明专利]基于深度强化学习的路口交通信号自适应控制方法在审

申请号：	202210503173.X	申请日：	2022-05-09
公开（公告）号：	CN114913685A	公开（公告）日：	2022-08-16
发明（设计）人：	高万宝;尹少东;吕红振;张超;解寅萍;杨丹	申请（专利权）人：	南京掘码网络科技有限公司
主分类号：	G08G1/01	分类号：	G08G1/01;G08G1/07
代理公司：	鄂尔多斯市金筹专利代理事务所(普通合伙) 15112	代理人：	孔炜
地址：	210001 江苏省南京市秦***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习路口交通信号自适应控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的路口交通信号自适应控制方法，包括如下步骤：

步骤1.定义基于深度强化学习与卷积神经网络的算法控制器，定义状态空间S、动作空间A和回报函数R；

步骤2.使用深度强化学习方法对卷积神经网络进行训练；

步骤3.依据训练好的算法控制器进行路口交通信号控制；

其特征在于，步骤1具体如下：

步骤1.1.使用深度强化学习方法构建卷积神经网络Q；

具有用于存储样本s,a,r,s'的样本池D，其中s表示当前交通状态，a表示选取的执行动作，r为回报值，s'为执行动作a后转移到的下一交通状态；卷积神经网络依次设输入层、卷积层、全连接层及输出层，输入层为当前交通状态s，输出层为当前交通状态s下所有执行动作a的值估计Q(s,a)；

步骤1.2.定义当前交通状态s；

将路口停车线以外的车道进行离散化处理，分成J个道段，每各道段为一元胞，元胞内最大容纳车辆数为Cmax-j，元胞内实际车辆数为Cr-j，元胞的第一个特征值饱和率表示为Cr-j/Cmax-j；元胞内车辆最高速度为Smax-n，元胞内车辆实际平均速度为Savg-j，最元胞的第二个特征值车速比表示为Savg-j/Smax-j；

即J×2维矩阵

用来表示当前交通状态s；

步骤1.3.定义动作空间A；

路口交通信号采用四相位按固定相序周期循环，相位一为X向直行及右转，相位二为X向左转，相位三为Y向直行及右转，相位四为Y向左转，四元组＜t₁，t₂，t₃，t₄＞表示当前周期下四个相位的绿灯持续时间；执行动作a＝＜t’₁，t’₂，t’₃，t’₄＞，其中t’₁、t’₂、t’₃、t’₄分别表示下一周期下四个相位的绿灯持续时间；动作空间A为执行动作a的集合；