[发明专利]一种基于深度强化学习的车辆低速跟驰决策方法有效

申请号：	201810875924.4	申请日：	2018-08-03
公开（公告）号：	CN109213148B	公开（公告）日：	2021-05-28
发明（设计）人：	孙立博;秦文虎;翟金凤	申请（专利权）人：	东南大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	南京众联专利代理有限公司 32206	代理人：	蒋昱
地址：	210096 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习车辆低速决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的车辆低速跟驰决策算法，该算法包括步骤如下，其特征在于：

(1)通过车联网实时接收前方车辆和后方车辆的位置、速度、加速度信息，作为环境状态，对无人车的当前状态和行为进行表达；

步骤(1)中通过车联网实时接收前方车辆和后方车辆的位置、速度、加速度信息，作为环境状态，对无人车的当前状态和行为进行表达，包括：

(1.1)通过车联网实时接收的前方三辆车的位置、速度、加速度信息表示为x_f1、v_f1、a_f1、x_f2、v_f2、a_f2、x_f3、v_f3、a_f3，其中，f₁为无人车前方距离最近的一辆车，f₂、f₃依次类推；后方车辆的位置、速度、加速度信息表示为x_r、v_r、a_r；

(1.2)将环境状态表达为E(x_f1,v_f1,a_f1,x_f2,v_f2,a_f2,x_f3,v_f3,a_f3,x_r,v_r,a_r)；

(1.3)将无人车的当前状态表达为C(x,v)，其中，x为无人车当前状态下的位置，v为无人车当前状态下的速度；将无人车的行为表达为A(a)，a为无人车行驶的加速度，为更加真实地模拟低速跟驰下的无人车行为，a需满足-3≤a≤3，且加速度之间取值连续，单位为m/s²；

(2)构建基于Actor-Critic框架的深度强化学习结构，该结构以环境状态、无人车的当前状态作为输入，无人车的加速度作为输出；

步骤(2)中构建基于Actor-Critic框架的深度强化学习结构，该结构以环境状态、无人车的当前状态作为输入，无人车的加速度作为输出，包括：

(2.1)分别为Actor和Critic构建结构相同的包括m层的深度卷积神经网络，该网络由一维卷积层、全连接层和输出层组成；

(2.2)环境状态和无人车的当前状态首先通过一维卷积层获得一个中间特征向量，然后再通过若干次全连接层的变换，最后输出无人车的行为；

(3)对深度强化学习结构中的Actor网络和Critic网络的参数进行训练，并对Critic网络参数θ_v和Actor网络参数θ_μ进行更新，多次训练完成后，无人车能够与前方车辆以及后方车辆保持一定的安全距离，在城市拥堵工况下实现车辆低速自动跟踪前车行驶；

步骤(3)中对深度强化学习结构中的Actor网络和Critic网络的参数进行训练，包括步骤：

(3.1)Actor根据当前环境状态s选择合适动作a，在通过计算回报函数获得奖励r后，状态从s转移到s′，将s，a，r，s′组合为一个元组τ＝(s,a,r,s′)，并将其存放在经验回放池D中，其中，奖励r由无人车与前方三辆车的间距x_f1-x、x_f2-x、x_f3-x、无人车与后方车辆的间距x-x_r以及无人车的加速度a共同决定；

(3.2)无人车采用步骤(3.1)的方式低速跟驰，直至达到指定步数T；

(3.3)更新Critic网络参数θ_v；

(3.4)更新Actor网络参数θ_μ；

(3.5)重复步骤(3.1)至步骤(3.4)，直到迭代达到最大步数或损失值小于给定阈值；

步骤三中更新Critic网络参数θ_v，包括步骤：

(4.1)从经验回放池D中随机采样n个元组τ_i＝(s_i,a_i,r_i,s′_i)；

(4.2)对每个τ_i，计算y_i＝r_i+γV(s′_i|θ_v)；

(4.3)更新θ_v，即

步骤三中更新Actor网络参数θ_μ，包括步骤：

(5.1)从经验回放池D中随机采样n个元组τ_j＝(s_j,a_j,r_j,s′_j)；

(5.2)对每个τ_j，计算δ_j＝r_j+γV(s′_j|θ_v)-V(s_i|θ_v)；

(5.3)更新θ_μ，即