[发明专利]基于深度强化学习的高速公路道路协同控制系统及方法有效
申请号: | 202011202148.5 | 申请日: | 2020-11-02 |
公开(公告)号: | CN112289044B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 王翀 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G08G1/08 | 分类号: | G08G1/08;G08G1/01;G06N3/08;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 苏虹 |
地址: | 210044 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 高速公路 道路 协同 控制系统 方法 | ||
1.一种基于深度强化学习的高速公路道路协同控制系统,其特征在于:包括交通信息交互模块、交通控制模块、深度学习神经网络训练模块以及交通控制单元;
所述交通信息交互模块,用于采集道路的观测信息ot,并转化为可用于深度强化学习的交通状态信息st发送给交通控制模块,以及接收交通控制模块和交通控制单元的指令并发送给管辖范围内的车辆;
所述交通控制模块,用于根据接收到的交通状态信息st选取最优行为策略at,并将at发送给交通控制单元,将st和at发送给训练模块,其中,at包括系统中所有交通控制单元的动作集合;
所述深度学习神经网络训练模块,用于将来自交通控制模块的交通状态信息st和行为策略at存入回放记忆库中,根据奖励函数对神经网络进行训练,使奖励函数的长期累积和最大化,以此优化决策控制网络;
所述交通控制单元包括布设于高速公路主线的可变限速控制单元以及布设于入口匝道处的匝道信号控制单元,各控制单元从来自交通控制模块的最优行为策略at中提取相应的动作指令,并将指令通过交通信息交互模块传递给受控路段的车辆;其中,匝道信号控制单元用于将入口匝道的放行流量指令转换成红绿信号周期,可变限速控制单元用于将限速指令转换成具体的可变限速值;
深度学习神经网络训练模块的训练过程包括如下步骤:
(1)在t+1训练时刻,从交通信息交互模块获取前一时刻的交通状态信息st,从控制模块获取协同策略at,从奖励函数模块获取即时奖励rt,连同当前时刻的交通状态信息st+1,组成交通状态数据元组(st,at,rt,st+1),存入回放记忆库中;
(2)深度学习训练模块从回放记忆库中随机调取N条用于训练的数据元组(st,at,rt,st+1);
(3)对于每条数据元组,深度学习训练网络根据Bellman方程对其长期收益进行评分,取两个评分网络的较小分值,公式为:
式中,yi是第i条数据的得分,ri是第i条数据的奖励,st+1是历史交通状态信息,是控制模块在st+1下的策略结果,θμ′和分别是长期决策网络和长期评分网络的权重向量;
(4)基于损失函数对评分网络的权重进行更新,使用Adam优化器对更新过程进行优化;其中,损失函数的计算方法为:
上式中,N为训练数据的条数,yi是第i条数据的得分,Q(st,at|θQ)为评分网络基于最新的数据(st,at)的评分,θQ为评分网络的权重;
(5)每隔K个时间步长更新长期评分网络的权重,再根据评分网络的权重,调整决策控制网络的权重,改善控制策略。
2.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统,其特征在于:交通信息交互模块包括若干路侧单元,高速公路主线及入口匝道的每条等距离子路段均配置有采集该子路段交通状态信息的路侧单元,采集的交通状态信息包括相应子路段的车辆密度、平均速度、排队长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011202148.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于张贴标签的贴标部
- 下一篇:一种连续刚构桥基础减震结构