[发明专利]一种区域多路口可变车道协同控制决策方法有效
申请号: | 202110677633.6 | 申请日: | 2021-06-18 |
公开(公告)号: | CN113487857B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 夏莹杰;徐小高;朱思雨;张洁 | 申请(专利权)人: | 杭州远眺科技有限公司 |
主分类号: | G08G1/01 | 分类号: | G08G1/01;G06N3/04;G06N3/08 |
代理公司: | 杭州华知专利事务所(普通合伙) 33235 | 代理人: | 束晓前 |
地址: | 310012 浙江省杭州市余杭区仓*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 区域 路口 可变 车道 协同 控制 决策 方法 | ||
1.一种区域多路口可变车道协同控制决策方法,其特征在于,包括以下步骤:
S1:由主控台实时获取路网状态数据,并获得每一路口的局部状态和上一时间步的决策动作;所述路网状态数据包括车道组左转方向车道组的平均排队长度、左转方向车道组的平均等待时间和左转方向车道组的平均延误时间,车道组直行方向车道组的平均排队长度、直行方向车道组的平均等待时间、直行方向车道组的平均延误时间,以及车辆位置映射矩阵;
S2:根据绩效奖励分级评定机制构建全局奖励分解模块,将全局奖励分解为基本奖励和绩效奖励,并分别计算每个可变车道获得的奖励总和;根据可变车道的贡献建立绩效奖励分级评定机制来确认每个可变车道的绩效奖励,具体为对可变车道组的路段拥挤程度进行分级,所述基本奖励通过混合网络进行特异性分配;
S3:根据区域内可变车道的数量,确定深度学习网络训练过程的状态空间、动作空间和全局奖励,构建全局混合网络;所述状态空间通过路网状态数据联合表征区域内每一路口局部状态来确定,所述可变车道为左直可变车道,所述动作空间的可选项为直行或左转;
S4:根据单个路口智能体网络和全局混合网络模型构建两个结构相同的神经网络,分别作为训练网络和目标网络,当训练网络和目标网络的相似度达到更新阈值时将两个神经网络的参数同步,经过不断迭代训练直至网络收敛;将所述可变车道抽象为智能体,以路口局部状态和上一时间步的执行动作作为相应智能体的输入,每一可变车道智能体将输入经过独立的深度学习网络计算得到自身的效用函数,所述全局混合网络根据区域内可变车道数量构建,将多个路口智能体的效用函数值作为全局混合网络的联合输入;
S5:根据上述收敛后的神经网络模型计算备选控制动作的效用函数值,选取最优动作进行可变车道转向控制;单独计算每一可变车道智能体采取不同决策动作的效用函数,采用效用函数值高的决策动作作为相应智能体下一时间步的执行动作,联合所有智能体的最优控制动作作为区域协同控制决策;效用函数值的计算公式为:
ytot=R+γ*Q′tot((τ′1,...,τ′n),(a′1,...,a′n)),其中,(τ′1,...,τ′n)为采取联合动作(a1,...,an)之后的联合状态,(a′1,...,a′n)为下一联合动作,R为区域路网由联合状态(τ1,...,τn)转移至联合状态(τ′1,...,τ′n)获得的全局奖励值,γ为对于训练网络效用函数值的接纳程度,n为可变车道数量。
2.根据权利要求1所述的一种区域多路口可变车道协同控制决策方法,其特征在于,所述绩效奖励的具体计算过程为:
计算路口上一决策执行期间直行车道组平均排队长度比Lscales和左转车道组平均长度比Lscalel,计算公式如下:其中,Ls为直行方向车道组的平均排队长度,Ll为左转方向车道组的平均排队长度,L为当前车道长度;
计算车道分级判定的阈值LT,计算公式如下:其中,Vout为可变车道组绿灯期间可驶出最大的车流量,Vmax为可变车道组可以容纳的最大车流量;计算每一可变车道对应智能体获得的绩效奖励计算公式如下:
其中,为第i个智能体获得的绩效奖励,Lscale_s为上一决策执行期间直行车道组平均排队长度比,Lscale_l为路口上一决策执行期间左转车道组平均长度比,LT为车道分级判定的阈值,Rp为绩效奖励总和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州远眺科技有限公司,未经杭州远眺科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110677633.6/1.html,转载请声明来源钻瓜专利网。