[发明专利]一种基于深度强化学习的车辆低速跟驰决策方法有效
申请号: | 201810875924.4 | 申请日: | 2018-08-03 |
公开(公告)号: | CN109213148B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 孙立博;秦文虎;翟金凤 | 申请(专利权)人: | 东南大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 蒋昱 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 车辆 低速 决策 方法 | ||
1.一种基于深度强化学习的车辆低速跟驰决策算法 ,该算法包括步骤如下,其特征在于:
(1)通过车联网实时接收前方车辆和后方车辆的位置、速度、加速度信息,作为环境状态,对无人车的当前状态和行为进行表达;
步骤(1)中通过车联网实时接收前方车辆和后方车辆的位置、速度、加速度信息,作为环境状态,对无人车的当前状态和行为进行表达,包括:
(1.1)通过车联网实时接收的前方三辆车的位置、速度、加速度信息表示为xf1、vf1、af1、xf2、vf2、af2、xf3、vf3、af3,其中,f1为无人车前方距离最近的一辆车,f2、f3依次类推;后方车辆的位置、速度、加速度信息表示为xr、vr、ar;
(1.2)将环境状态表达为E(xf1,vf1,af1,xf2,vf2,af2,xf3,vf3,af3,xr,vr,ar);
(1.3)将无人车的当前状态表达为C(x,v),其中,x为无人车当前状态下的位置,v为无人车当前状态下的速度;将无人车的行为表达为A(a),a为无人车行驶的加速度,为更加真实地模拟低速跟驰下的无人车行为,a需满足-3≤a≤3,且加速度之间取值连续,单位为m/s2;
(2)构建基于Actor-Critic框架的深度强化学习结构,该结构以环境状态、无人车的当前状态作为输入,无人车的加速度作为输出;
步骤(2)中构建基于Actor-Critic框架的深度强化学习结构,该结构以环境状态、无人车的当前状态作为输入,无人车的加速度作为输出,包括:
(2.1)分别为Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由一维卷积层、全连接层和输出层组成;
(2.2)环境状态和无人车的当前状态首先通过一维卷积层获得一个中间特征向量,然后再通过若干次全连接层的变换,最后输出无人车的行为;
(3)对深度强化学习结构中的Actor网络和Critic网络的参数进行训练,并对Critic网络参数θv和Actor网络参数θμ进行更新,多次训练完成后,无人车能够与前方车辆以及后方车辆保持一定的安全距离,在城市拥堵工况下实现车辆低速自动跟踪前车行驶;
步骤(3)中对深度强化学习结构中的Actor网络和Critic网络的参数进行训练,包括步骤:
(3.1)Actor根据当前环境状态s选择合适动作a,在通过计算回报函数获得奖励r后,状态从s转移到s′,将s,a,r,s′组合为一个元组τ=(s,a,r,s′),并将其存放在经验回放池D中,其中,奖励r由无人车与前方三辆车的间距xf1-x、xf2-x、xf3-x、无人车与后方车辆的间距x-xr以及无人车的加速度a共同决定;
(3.2)无人车采用步骤(3.1)的方式低速跟驰,直至达到指定步数T;
(3.3)更新Critic网络参数θv;
(3.4)更新Actor网络参数θμ;
(3.5)重复步骤(3.1)至步骤(3.4),直到迭代达到最大步数或损失值小于给定阈值;
步骤三中更新Critic网络参数θv,包括步骤:
(4.1)从经验回放池D中随机采样n个元组τi=(si,ai,ri,s′i);
(4.2)对每个τi,计算yi=ri+γV(s′i|θv);
(4.3)更新θv,即
步骤三中更新Actor网络参数θμ,包括步骤:
(5.1)从经验回放池D中随机采样n个元组τj=(sj,aj,rj,s′j);
(5.2)对每个τj,计算δj=rj+γV(s′j|θv)-V(si|θv);
(5.3)更新θμ,即
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810875924.4/1.html,转载请声明来源钻瓜专利网。