[发明专利]一种基于深度强化学习的交通信号自适应控制方法有效
申请号: | 201710258926.4 | 申请日: | 2017-04-19 |
公开(公告)号: | CN106910351B | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 谭国真;王莹多 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G08G1/08 | 分类号: | G08G1/08;G06N3/04;G06N3/08 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及交通控制及人工智能技术领域,一种基于深度强化学习的交通信号自适应控制方法,包括以下步骤:(1)定义交通信号控制agent、状态空间S、动作空间A和回报函数r,(2)深度神经网络的预训练,(3)使用深度强化学习方法对神经网络进行训练,(4)依据训练好的深度神经网络进行交通信号控制。通过对磁感、视频、RFID和车联网等采集到的交通数据进行预处理,获取包含车辆位置信息的交通状态的低层表示;其次,通过深度学习的多层感知器对交通状态进行感知,得到当前交通状态的高层抽象特征;在此基础上利用强化学习的决策能力依据当前交通状态的高层抽象特征选择合适的配时方案,实现交通信号自适应控制,以减少车辆旅行时间,确保交通安全、畅通、有序和高效地运行。 | ||
搜索关键词: | 一种 基于 深度 强化 学习 交通信号 自适应 控制 方法 | ||
【主权项】:
1.一种基于深度强化学习的交通信号自适应控制方法,其特征在于包括以下步骤:步骤1、定义交通信号控制agent、状态空间S、动作空间A和回报函数r,具体包括以下子步骤:步骤1.1、交通信号控制agent使用深度强化学习方法,构建深度神经网络QV为值网络,初始化经验回放记忆池D为空,本发明的神经网络采用卷积神经网络,依次为输入层,3个卷积层,1个全连接层和4个输出层,输入层为当前交通状态s,输出层为当前交通状态所有动作的值估计QV(s,a);经验回放记忆池D用于记录转移样本<s,a,r,s'>,其中s表示当前交通状态,a表示在当前交通状态s下选择的执行动作,s′表示在当前交通状态s下执行动作a后迁移到的下一个交通状态,r表示在当前交通状态s执行动作a获取的立即回报;步骤1.2、定义当前交通状态s,当前交通状态s包含交叉口各车道上车辆的位置信息和当前信号灯状态信息,对交叉口各车道停车线以外l米内每隔c米进行离散化处理,得到
个元胞,如果元胞内有车,对应位置值为1,如果元胞内没有车,对应位置值为0,这样就得到车辆位置信息,对相应位置上信号灯状态进行数字化表征,红灯RED=0.2,黄灯YELLOW=0.5,绿灯GREEN=0.8,得到当前信号灯状态信息;再将各车道车辆信息和当前信号灯状态信息融合得到类似于图像的当前交通信息矩阵,矩阵维数越大,交通信息刻画就越准确,本发明矩阵维数取值168×168,当前交通信息矩阵中心部分代表当前信号灯状态,其它位置上1代表有车,0代表没有车;再将连续4个时刻获取的当前交通信息矩阵作为当前交通状态s,其中不仅包含了车辆位置静态信息,而且还包含了交通动态变化的信息,从而更加准确深刻地刻画出了当前交通状态;步骤1.3、定义动作空间A为可以选择的相位,本发明采用4相位,A={NSG,NSLG,WEG,WELG},其中NSG为相位1,代表南北直行通行,NSLG为相位2,代表南北左转通行,WEG为相位3,代表东西直行通行,WELG为相位4,代表东西左转通行,agent的可选执行动作为a,其中a∈A;步骤1.4、定义回报函数r=‑0.4×d‑0.3×w‑0.2×q‑0.1×p,其中
表示车辆总延误,Nlane表示交叉口的车道数,Nvehicle表示各车道上的车辆数,vspeed表示车辆当前速度,vallowed表示车辆所在车道允许最大通行速度;
表示车辆总等待时间,wvehicle表示单个车辆在交叉口的等待时间,大小为车辆从静止到运动之间的时间长度;q=max(q1,q2,q3,q4)‑min(q1,q2,q3,q4)表示车辆排队绝对差,q1表示相位1对应的排队长度,q2表示相位2对应的排队长度,q3表示相位3对应的排队长度,q4表示相位4对应的排队长度;p表示信号灯是否发生切换,可通过公式(1)进行描述,
式中,p=0表示信号灯没有发生切换,p=1表示信号灯发生切换;步骤2、深度神经网络的预训练,目的是为了减少agent在学习过程中由于选择错误的动作对交通造成不好的影响,具体包括以下子步骤:步骤2.1、预训练样本采集,依据现有的交通信号控制系统控制策略进行交通控制,对当前交通状态s、当前交通状态的执行动作a、当前交通状态的获取回报r及下一个交通状态s′每隔5秒钟进行一次采样,并将转移样本<s,a,r,s'>送至经验回放记忆池D中,采样数目不少于100000个;步骤2.2、计算获取深度神经网络参数θ,使用步骤2.1采集到的样本数据对交通信号控制agent进行训练,使损失函数L=[Q(s,a;θ)‑r‑γmaxQ(s',a';θ)]2最小化,其中θ表示神经网络一组参数取值,Q(s,a;θ)表示当前交通状态s下选取执行动作a在神经网络参数为θ时的Q值,r表示立即回报,γ表示折扣系数,maxQ(s′,a′;θ)表示下一个交通状态s'在神经网络参数为θ时所有动作对应Q值的最大值;神经网络参数θ的更新使用RMSProp优化算法,RMSProp通过增加阻尼系数η解决学习速率衰减的问题,RMSProp算法通过公式(2)和(3)进行描述:![]()
式中,
表示参数θj在t+1时刻的累加梯度,
表示参数θj在t时刻的累加梯度,
表示参数θj在t+1时刻的取值,
表示参数θj在t时刻的取值,η表示阻尼系数且η∈(0,1),α表示累加梯度的学习率,δ表示一个接近于0的小数,在本发明中,δ=0.001,η=0.9;步骤3、使用深度强化学习方法对神经网络进行训练,具体包括以下子步骤:步骤3.1、构造结构相同的值网络QV和目标网络QT,将步骤2预训练好的神经网络参数θ复制到QV和QT中,使θT=θV=θ,θV表示值网络QV的参数,θT表示目标网络QT的参数,清空经验回放记忆池D,时间步清零,切换到本发明基于深度强化学习的交通信号自适应控制方法,初始化动作选择机制ε‑greedy算法中的ε,使得0<ε<1,本发明取初始值ε=0.8;步骤3.2、对通过磁感、视频、RFID和车联网手段采集到的交通数据根据步骤1.2进行处理,每隔5秒钟观测当前交通状态s;步骤3.3、将当前交通状态s送入值网络QV中,输出当前交通状态s下所有执行动作a的Q值Q(s,a;θV),生成一个随机数rand,如果rand<ε,从执行动作空间概率中选择一个执行动作,a~U(A),否则a=argmaxQ(s,a;θV);计算步骤1.4定义的回报函数r,同时观测下一个交通状态s′,并将转移样本<s,a,r,s′>送至经验回放记忆池D中,再对当前交通状态重新赋值,令s=s′;步骤3.4、从经验回放记忆池D中取出一组小批度数据,以最小化损失函数
其中采用RMSProp优化算法对神经网络进行训练;步骤3.5、重复步骤3.2到步骤3.4直到|θT‑θV|小于某一阈值,每10000步使得θT=θV,ε=min(0.1,ε2);步骤4,依据训练好的深度神经网络进行交通信号控制,具体包括以下子步骤:步骤4.1、更新ε‑greedy算法中的ε=0,使agent利用已经学习到的经验;步骤4.2、根据步骤3.2每隔5秒钟获取当前交通状态s,再将s送至深度神经网络,选取执行动作a,使得a=argmaxQ(s,a;θV),重复此步骤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710258926.4/,转载请声明来源钻瓜专利网。
- 上一篇:围巾(cindytan‑灰)
- 下一篇:围巾(cindytan‑橙)