[发明专利]基于深度强化学习的可变车道及交通信号协同控制方法有效
申请号: | 202010784747.6 | 申请日: | 2020-08-06 |
公开(公告)号: | CN111915894B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 丁川;聂午阳;鹿应荣;鲁光泉 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G08G1/01 | 分类号: | G08G1/01;G08G1/08;G06N3/08 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 曹鹏飞 |
地址: | 100000*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 可变 车道 交通信号 协同 控制 方法 | ||
本发明公开了一种基于深度强化学习的可变车道及交通信号协同控制方法,包括采集交叉口状态观测值,包含车辆数据、信号灯数据、可变车道数据,并进行预处理后输入至神经网络;神经网络基于强化学习不断训练更新,直至模型收敛;基于训练好的神经网络进行最优控制,输出最优控制策略。本发明实现了可变车道和交通信号的耦合控制,并且可以根据交叉口区域的实时状态,进行实时的最优控制,不需要人工作业,可变车道的切换和交通信号的控制完全根据车流数据进行自适应调节,并且没有造成车辆二次停车,优化了信号控制交叉口的时空间资源利用效率。
技术领域
本发明涉及道路交通控制技术领域,更具体的说是涉及车路协同环境下一种信号控制交叉口可变车道和交通信号的协同自适应最优控制方法。
背景技术
信号控制交叉口往往是城市道路交通拥堵发生的地段,对城市交通整体运行效果有巨大影响。交通信号灯可以从时间层面保证车辆有序通过交叉口,可变车道可以从空间层面保证不同通行方向的车辆高效地利用道路空间资源。
虽然交通信号灯和可变车道的设置都可以在一定程度上确保交通良好有序运行,但是它们二者之间往往缺少紧密的协调。由于交叉口是一个车辆连续通行的动态场景,所以交通信号灯的控制和可变车道的设置互相之间也会产生很大的影响。在当今的城市中,交通信号灯往往是依据人工经验预先设置好,而可变车道的设置往往是依据历史车辆通行数据。二者并没有很好地耦合优化。另外,交通信号和可变车道其中一者的优化必将会对另一者产生影响,若另一者不相应进行改变,可能甚至会降低交叉口的通行效益。
因此,如何提供一种基于深度强化学习的可变车道及交通信号协同控制方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于深度强化学习的可变车道及交通信号协同控制方法,实现了可变车道和交通信号的耦合控制,优化了信号控制交叉口的时空间资源利用效率。
为了实现上述目的,本发明采用如下技术方案:
一种基于深度强化学习的可变车道及交通信号协同控制方法,包括:
步骤1:采集交叉口状态观测值,包含车辆数据、信号灯数据和可变车道数据,并进行预处理后输入至神经网络;
步骤2:所述神经网络基于强化学习不断更新,直至模型收敛,其中,目标Q值的更新公式为:
Q(st,at)←Q(st,at)+α(rt+γ·maxQ(s',a')-Q(st,at)) (1)
式中,st为t时刻的交叉口状态观测值,at为t时刻采取的控制动作,Q(st,at)为在状态st下采取动作at得到的期望未来奖励总和,简称为Q值,maxQ(s',a')为t+1时刻,所能取得的最大Q值,rt为t时刻的奖励函数,γ为折扣因子,α为学习率;
步骤3:基于训练好的所述神经网络进行最优控制:
式中,π*表示最优策略,s表示某一时刻交叉口状态观测值,a表示s时刻采取的控制动作,A表示所有控制动作,S表示所有交叉口状态观测值。
进一步,步骤1具体包括以下步骤:
步骤11:所述车辆数据包括检测区域内车辆的速度、距离交叉口的位置和通行方向,预处理过程为:
将每个进口道长度L的检测区域划分为m个长度为p的小方格,每个小方格内按照车辆的通行方向分别计算小方格内车辆的车辆数量和平均速度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010784747.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种村镇污水过渡环型生态处理系统及方法
- 下一篇:一种摄像模组