[发明专利]一种基于深度学习的城市交通系统调度策略生成方法有效
申请号: | 202011024487.9 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112150808B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 杨嘉琛;张季鹏 | 申请(专利权)人: | 天津大学 |
主分类号: | G08G1/01 | 分类号: | G08G1/01;G08G1/09 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 城市交通 系统 调度 策略 生成 方法 | ||
1.一种基于深度学习的城市交通系统调度策略生成方法,包括如下步骤:
(1)搭建城市交通系统仿真模型;
(2)基于城市交通系统仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数;具体为:
(2.1)为系统中每一个交通灯建立状态空间:交通灯状态空间有GRGR和RGRG两种状态,GRGR表示车辆可以在该交通灯所在路口南北向通行,RGRG表示车辆可以在该交通灯所在路口东西向通行;
(2.2)为系统中每一个车辆建立状态空间:车辆状态空间包括三个子空间,第一个子空间代表车辆速度,是个连续空间,取值范围为0和道路限速组成的闭区间;第二个子空间代表车辆所在位置与下一个交通灯之间的距离,是个连续空间,取值范围为0和路段长度组成的闭区间;第三个子空间代表车辆所在路段,是个离散空间,取值范围为1和路段个数组成的正整数区间;
(2.3)为系统中每一个交通灯建立动作空间,交通灯动作空间有两种动作:转化为GRGR和转化为RGRG;
(2.4)为系统中每一个车辆建立动作空间,车辆动作空间是个连续空间,表示该车辆在该时刻对本身施加的加速度,取值范围与静态路网信息单元中的车辆加速度范围一致;
(2.5)为系统中每一个交通灯和每一个车辆建立回报函数,将系统中每个车辆的平均延迟的相反数作为回报,回报函数的具体计算方法如下:
reward=-avg_del
其中,reward是指回报函数的具体数值,avg_del是指每个车辆的平均延迟,n是指系统中的车辆总数,deli是指第i个车辆的延迟,vtop是指道路限速,vi是指第i个车辆的速度,timestep是指车辆在系统中行驶的时间长度;
(3)根据深度学习PPO算法,搭建策略神经网络和估值神经网络;
(4)基于所述城市交通系统仿真模型、各个状态空间、各个动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型,具体为:
(4.1)初始化策略神经网络参数和估值神经网络参数;
(4.2)对各个状态空间进行初始化,得到当前状态st;
(4.3)城市交通系统仿真模型根据策略神经网络输出的策略基于动作空间选择行为at,执行状态转移方程,得到下一步的状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;
(4.4)依据当前步骤的车辆平均速度、训练进度信息,自适应性地更新超参数,具体公式如下:
cpb=base×(1+0.002×iter)-0.75
其中vaver是车辆平均速度,base是常数参数,iter是当前训练轮数,ε是常数参数;
(4.5)基于(4.3)得到的优势函数和(4.4)得到的超参数,根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数,具体公式如下;
LMod_PPO(θ)=Et[min(rt(θ)At,clip(rt(θ),1-βMod,1+βMod)At)]
(4.6)策略神经网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;
(4.7)反复执行N次(4.2)到(4.6),从而完成神经网络模型的训练,保存训练好的神经网络模型;
(5)调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011024487.9/1.html,转载请声明来源钻瓜专利网。