[发明专利]一种基于深度强化学习的实时交通信号控制方法及装置有效

申请号：	202011497656.0	申请日：	2020-12-17
公开（公告）号：	CN112669629B	公开（公告）日：	2022-09-23
发明（设计）人：	焦朋朋;刘侃;孙博;杨紫煜;王泽昊	申请（专利权）人：	北京建筑大学
主分类号：	G08G1/08	分类号：	G08G1/08;G08G1/081;G06N20/00
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	郭亮
地址：	100044***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习实时交通信号控制方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的实时交通信号控制方法，其特征在于，包括：

从目标路口的实时信息图像中获取目标路口的实时车辆信息；

将目标路口的实时车辆信息输入预设单路口交通信号控制模型，得到目标路口的交通信号控制方案；

其中，所述预设单路口交通信号控制模型是根据携带实时车辆样本信息进行训练得到的；

其中，在所述将目标路口的实时车辆信息输入预设单路口交通信号控制模型的步骤之前，所述方法还包括：

获取目标路口多个实时样本图像的实时车辆样本信息，将一个实时样本图像的实时车辆样本信息作为一组训练样本；

将所述训练样本输入预设深度强化学习模型，采用经验回放法进行训练，得到样本交通信号控制信息，当满足预设训练条件时，停止训练，得到预设单路口交通信号控制模型；

其中，所述预设训练条件为：预设深度强化学习模型的收益奖励值超过预设阈值；

在所述将目标路口的实时车辆信息输入预设单路口交通信号控制模型的步骤之前，所述方法还包括：

将所述训练样本输入预设双Q网络深度强化学习模型采用经验回放法进行训练，当满足预设训练条件时，停止训练，得到预设单路口交通信号控制模型；

其中，所述预设训练条件为：预设双Q网络深度强化学习模型的收益奖励值超过预设阈值；

其中，双Q网络深度强化学习模型包括模型DRL以及模型DDRL；

其中，DDRL模型步骤如下所示：

DDRL模型步骤：

模型输入：迭代轮数T，步长step，状态特征维度N，当前Q网络，目标Q网络Q’，动作集A，探索率ε，衰减因子γ，目标Q网络参数更新频率C，批量梯度下降的样本数m；

模型输出：Q网络参数；

Step1：初始化当前的环境状态和动作集合以及对应的Q值，初始化当前Q网络中参数W，初始化目标Q网络Q’的参数W'＝W，放空经验池D；

Step2：依据迭代轮数T，进行迭代；

Step3：初始化参数S作为环境状态中的初始序列，并提取其特征向量

Step4：将车辆信息的状态特征向量作为Q网络输入提取信息，依据动作集合所得的Q值输出，基于ε-贪婪法选取对应的控制动作A；

Step5：当前状态S执行选择的动作A，切换到下一状态S'及其状态特征向量得到收益奖励R，决定是否结束状态；

Step6：将四元组存入经验池集合D；

Step7：状态更新S＝S_t+1；

Step8：从经验回放集合D中采样m个样本计算当前目标Q值y_i：

Step9：采用均方根误差MSE作为损失函数，使用神经网络的梯度反向传播进行当前Q网络的所有参数W的更新；

Step10：如果T％C＝1，则更新目标Q网络参数W'＝W；

Step11：若下一S'为结束状态，则停止当前迭代，反之返回步骤Step4。

2.根据权利要求1所述深度强化学习的实时交通信号控制方法，其特征在于，所述方法还包括：

获取目标路口的周边多个路口实时图像，并从周边多个路口实时图像中获取多个路口的实时车辆信息；

将多个路口的实时车辆信息输入预设多路口交通信号控制模型，得到多路口的交通信号整体控制方案；

其中，所述预设多路口交通信号控制模型是根据多个路口的车辆样本信息进行强化学习训练得到的。

3.根据权利要求2所述深度强化学习的实时交通信号控制方法，其特征在于，在所述将多个路口的实时车辆信息输入预设多路口交通信号控制模型的步骤之前，所述方法还包括:

根据多个路口的实时车辆信息得到多个路口的局部奖励函数和多个路口的整体奖励函数；

根据局部奖励函数和整体奖励函数得到多个路口的混合奖励函数。

4.根据权利要求1所述基于深度强化学习的实时交通信号控制方法，其特征在于，所述从目标路口的实时信息图像中获取目标路口的实时车辆信息的步骤，具体包括：

将所述目标路口的实时信息图像进行网格化处理，对每个网格进行速度值向量和位置值向量进行分析，获取目标路口的实时车辆信息；

其中，所述实时车辆信息包括：实时车辆速度信息和实时车辆位置信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京建筑大学，未经北京建筑大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011497656.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G08 信号装置
G08G 交通控制系统
G08G1-00 道路车辆的交通控制系统
G08G1-005 .包括行人导引指示器的
G08G1-01 .检测要统计或要控制的交通运动
G08G1-065 .计算一段道路或停车场上的车辆数的，即比较进出车辆数
G08G1-07 .交通信号控制
G08G1-09 .给出可变交通指令的装置

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的实时交通信号控制方法及装置有效

专利文献下载