[发明专利]基于深度强化学习的可变车道及交通信号协同控制方法有效

申请号：	202010784747.6	申请日：	2020-08-06
公开（公告）号：	CN111915894B	公开（公告）日：	2021-07-27
发明（设计）人：	丁川;聂午阳;鹿应荣;鲁光泉	申请（专利权）人：	北京航空航天大学
主分类号：	G08G1/01	分类号：	G08G1/01;G08G1/08;G06N3/08
代理公司：	北京慕达星云知识产权代理事务所(特殊普通合伙) 11465	代理人：	曹鹏飞
地址：	100000***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习可变车道交通信号协同控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的可变车道及交通信号协同控制方法，其特征在于，包括：

步骤1：采集交叉口状态观测值，包含车辆数据、信号灯数据和可变车道数据，并进行预处理后输入至神经网络；

步骤2：所述神经网络基于强化学习不断更新，直至模型收敛，其中，目标Q值的更新公式为：

（1）

式中，为t时刻的交叉口状态观测值，为t时刻采取的控制动作，为在状态下采取动作得到的期望未来奖励总和，简称为Q值，为t+1时刻，所能取得的最大Q值，为t时刻的奖励函数，为折扣因子，为学习率；

步骤3：基于训练好的所述神经网络进行最优控制：

（2）

式中，表示最优策略，s表示某一时刻交叉口状态观测值，a表示在状态s下采取的控制动作，A表示所有控制动作，S表示所有状态；

步骤1具体包括以下步骤：

步骤11：所述车辆数据包含检测区域内车辆的速度、距离交叉口的位置和通行方向，预处理过程为：

将每个进口道长度L的检测区域划分为m个长度为p的小方格，每个小方格内按照车辆的通行方向分别计算小方格内车辆的数量和平均速度；

基于以上数据构建大小为b×m×2的矩阵，其中，第1个维度b=t×n代表n个进口道上t个通行方向的车辆数据；第2个维度代表m个小方格；第3个维度2代表小方格内采集的车辆的数量和平均速度信息，计算公式为：

（ 3 ）

其中，i代表第i个小方格；P代表位置信息；V代表速度信息；S代表直行车辆；L代表左转车辆；为全部直行车辆；为直行车辆的速度；为全部左转车辆；为左转车辆的速度；

所述信号灯数据包含信号灯程序和信号灯相位，所述信号灯程序包括可变车道通行方向为直行的程序和可变车道通行方向为左转的程序，预处理过程为：

在每一时刻t，用0和1变量表示两种信号灯程序，并编码为2×1的向量矩阵；

信号灯相位编码为一个p×1的向量矩阵，其中p代表相位的个数；

所述可变车道数据包括可变车道通行方向以及可变车道通行方向和信号灯程序是否一致;可变车道通行方向用0和1变量表示，表示在直行和左转中切换，编码为2×1的向量矩阵；变车道通行方向与信号灯程序是否一致用0和1变量表示，编码为2×1的向量矩阵。

2.根据权利要求1所述的一种基于深度强化学习的可变车道及交通信号协同控制方法，其特征在于，步骤2具体包括以下步骤：

步骤21：将经过预处理后的所述车辆数据依次经过两个卷积层和ReLU激活函数后，与经过预处理后的所述信号灯程序、所述信号灯相位和所述可变车道通行方向数据编码后进行拼接，得到长度为110的向量，再通过一个全连接层和ReLU激活函数后得到长度为16的向量，最后通过一个全连接层和softmax激活函数输出长度为3的向量，长度3代表所述神经网络输出的3个动作分别对应的Q值；

步骤22：根据概率执行Q值最大的动作，根据概率执行随机动作，3个动作分别为：动作1保持当前相位不变，动作2信号灯切换到下一个相位，动作3切换可变车道通行方向；概率在训练开始时设置为0.5，随训练进行不断增大，到训练结束时概率增大到0.9；

步骤23：将t时刻所选择动作作用于交叉口后，将交叉口产生的下一时刻t+1的状态观测值和t时刻采取动作后获得的奖励函数更新Q值，重复步骤22和步骤23直至Q值稳定，得到训练好的所述神经网络。

3.根据权利要求2所述的一种基于深度强化学习的可变车道及交通信号协同控制方法，其特征在于，切换可变车道通行方向具体过程为：

步骤221、判断可变车道通行方向与信号灯程序是否一致，若一致则执行步骤222，否则执行步骤223；

步骤222、切换可变车道通行方向；

步骤223、对可变车道进行清空检测，如果当前可变车道通行方向为直行，判断是否有左转车辆在该车道上，如果有则清空检测结果为false，否则清空检测结果为true；如果当前可变车道通行方向为左转，判断是否有直行车辆在该车道上，如果有则清空检测结果为false，否则清空检测结果为true；当清空检测结果为true时，执行步骤224，清空检测结果为false，则不执行任何动作；

步骤224、切换信号灯程序，如果当前信号灯程序为直行，则将信号灯程序切换为左转；如果当前信号灯程序为左转，则将信号灯程序切换为直行。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010784747.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种村镇污水过渡环型生态处理系统及方法
下一篇：一种摄像模组

同类专利

专利分类

G 物理

G08 信号装置
G08G 交通控制系统
G08G1-00 道路车辆的交通控制系统
G08G1-005 .包括行人导引指示器的
G08G1-01 .检测要统计或要控制的交通运动
G08G1-065 .计算一段道路或停车场上的车辆数的，即比较进出车辆数
G08G1-07 .交通信号控制
G08G1-09 .给出可变交通指令的装置

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习的可变车道及交通信号协同控制方法有效

专利文献下载