[发明专利]一种交叉路口信号灯及可变车道联合控制系统和方法有效
申请号: | 202111032828.1 | 申请日: | 2021-09-03 |
公开(公告)号: | CN113870589B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 孙未未;蒋骐泽 | 申请(专利权)人: | 复旦大学 |
主分类号: | G08G1/08 | 分类号: | G08G1/08;G08G1/095;G08G1/01;G08G1/065 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交叉 路口 信号灯 可变 车道 联合 控制系统 方法 | ||
1.一种基于交叉路口信号灯及可变车道联合控制系统的信号灯及可变车道联合控制方法,其特征在于,
该系统包括车道信息收集模块、交叉路口信号决策节点以及信号灯及可变车道控制指示模块;所述交叉路口信号决策节点一端与所述车道信息收集模块连接,另一端与所述信号灯及可变车道控制指示模块连接;其中:
所述车道信息收集模块,用于采集当前交叉路口及其相邻道路的交通数据,将交通数据按照不同车道划分,并传递给交叉路口信号决策节点;所述交通数据包括地磁感应器线圈数据、道路交通摄像头数据、信号灯及可变车道相位数据;所述信号灯及可变车道相位为信号灯所指示的车道通行状态及可变车道所指示的可变车道通行方向;
所述交叉路口信号决策节点,包括:历史数据记录模块,信号决策模块;其中:
所述历史数据记录模块,用于收集并记录所述车道信息收集模块传递的交通数据,同时提供历史数据的查询;
所述信号决策模块,用于从所述历史数据记录模块和所述车道信息收集模块获取交通数据,使用强化学习算法,训练得到信号决策策略,计算选择交叉路口实时相位,并传递给信号灯及可变车道控制指示模块;
所述信号灯及可变车道控制指示模块,用于从所述交叉路口信号决策节点获取交叉路口实时相位,并根据当前信号灯及可变车道指示,设置未来信号灯及可变车道指示;
所述车道信息收集模块,具体包括:数据获取单元,数据划分单元,车道特征融合单元;其中:
所述数据获取单元,用于采集当前交叉路口及其相邻道路的交通数据;数据获取单元包括交通摄像头、地磁感应器;
所述数据划分单元,用于从所述数据获取单元获取交通数据,根据数据是否能够按车道划分,将数据分类为总体数据和车道数据两类;总体数据包含信号灯及可变车道相位数据,车道数据包含基于地磁感应器线圈数据和道路交通摄像头数据得到的每条车道的车辆数量,以及基于所述信号灯及可变车道相位数据得到的每条车道的通行状态和可变车道的通行方向;
所述车道特征融合单元,用于将车道数据按照不同车道进行划分,整合提取每个车道的数据特征,获得每条车道的车道交通状态数据,将总体数据和车道交通状态数据传递给所述交叉路口信号决策节点;
所述信号决策模块,包括:策略存储单元,策略函数更新单元;其中:
所述策略存储单元,用于存储学习到的策略函数,使用随机策略初始化;
所述策略函数更新单元,用于策略存储单元中存储的策略函数,并获取所述历史数据记录模块中的历史数据,使用历史数据和强化学习方法训练策略函数;所述策略函数计算方法为,将所述车道交通状态数据作为所述策略存储单元中的神经网络输入时,根据车道在所选动作下是否可以通行将车道交通状态数据分为两组,并使用聚合函数将车道交通状态数据表示为两个车道组数据,将所述车道组数据和所述总体数据输入所述神经网络,得到累计动作奖励预测;所述强化学习算法为,基于历史数据记录模块中的历史数据,将历史数据作为策略函数的输入,得到输出的累计动作奖励,结合历史数据中的历史获得动作奖励,使用梯度下降方法训练策略函数的参数,使策略函数的累计动作奖励预测更接近真实值;
具体步骤为:
(1)从交叉路口及其相邻道路获取交通数据,将数据分为可按车道划分的车道数据和不可按车道划分的总体数据分为两组;对于车道数据,按照车道对数据划分,对每个车道数据使用全连接神经网络结构,根据每个车道的数据计算车道交通状态表示,作为车道交通状态数据;
(2)基于所述总体数据和车道交通状态数据,使用所述历史数据记录模块存储数据,并基于所述策略存储单元中初始化的随机策略,采用强化学习方法训练策略,获得信号灯和可变车道的策略函数;所述策略存储单元中的策略函数为一个神经网络;
(3)交叉路口相位选择模块获取所述策略存储单元中的策略函数及所述车道信息收集模块的总体数据和车道交通状态数据,将所述总体数据和车道交通状态数据输入至训练完成的策略函数,得到交叉路口的信号灯及可变车道选择的相位;
步骤(1)中所述全连接神经网络的结构为,对于每个车道数据,设其向量表示为X,所述车道交通状态表示Y的计算公式如下:
Y=WX+b, (1)
其中,W和b是所述全连接神经网络结构中可学习的参数;所有车道的所述车道交通状态表示集合为Y={Y1,Y2,…,YN};其中N为车道总数;
步骤(2)中所述策略存储单元中的策略函数为一个神经网络,以当前路口的状态数据s={M,Y}和选择的路口相位a作为输入,输出累计动作奖励的预测Q(s,a),其计算公式如下:
G1={Yi|i∈路口相位a允许通行的车道},G2={Yj|j∈路口相位a不允许通行的车道},(2)
A1=Aggregate(G1),A2=Aggregate(G2), (3)
其中,M为所述车道信息收集模块输出的总体数据,Yi为车道i的所述车道交通状态数据,G1为路口相位a允许通行车道的交通状态数据集合,G2为路口相位a不允许通行车道的交通状态数据集合,Aggregate为聚合函数,A1为所述G1使用聚合函数得到的车道数据集合的表示,A2为所述G2使用聚合函数得到的车道数据集合的表示,W和b为全连接神经网络的可学习参数,⊕为将向量进行拼接的运算符;其中,聚合函数为最大值函数、平均值函数、最小值函数或注意力机制函数;
所述策略存储单元中所述强化学习方法训练策略包括:将所述数据输入所述策略函数,策略函数输出不同交叉路口相位下预测的累计动作奖励,其计算公式如下:
其中,Q为所述策略函数,Q*为最优策略函数,s0为当前路口的状态数据,a0为当前选择的路口相位,γ为折旧系数,ri为从状态s0选择路口相位a0,然后采取最优策略依次选择路口相位ai,在第i次交互时获得的动作奖励;
其中,最优策略为使所述最优策略函数最大化的策略;折旧系数γ∈[0,1]越大,策略函数越关注长时间下的动作奖励,反之越关注短时间内的动作奖励;动作奖励r用于表示当前交叉路口的通行状态,数值越大表明通行状态越好;具体使用交叉路口车辆平均速度、通过交叉路口的车辆数目、交叉路口总车辆数量取反作为动作奖励;策略更新的目标是使所述策略函数输出结果尽可能逼近所述最优策略函数Q*的结果;
所述策略函数更新单元根据所述历史数据中采取的动作和得到的动作奖励,对所述策略更新,提升策略预测准确度,然后将更新后的策略存储于所述策略存储单元中,其更新公式如下:
Q′(s,a)=(1-LR)·Q(s,a)+LR·(r+γmaxa′Q(s′,a′)), (6)
其中,Q为策略函数,s为当前路口的状态数据,a为当前选择的路口相位,γ为折旧系数,LR为策略函数学习率,r为得到的动作奖励,s′为在路口状态s、执行动作a后转移到的新路口状态,a′为路口状态s′下能够最大化策略函数预测值的路口相位,Q′为经过一次训练后新的策略函数;
所述策略函数Q预测该路口状态s和路口相位a下获得的累计动作奖励R,并基于历史数据中记录的r对策略函数进行训练,使策略函数能够更准确的预测;其中α越大,则策略函数的一次训练更新幅度也就越大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111032828.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢管转移存放系统
- 下一篇:一种凹槽型谐振层和网状地板的透明吸波器