[发明专利]基于强化学习的无人驾驶车辆城市交叉口通行方法有效

申请号：	201810780418.7	申请日：	2018-07-17
公开（公告）号：	CN108932840B	公开（公告）日：	2021-09-07
发明（设计）人：	陈雪梅;杜明明;刘哥盟	申请（专利权）人：	北京理工大学
主分类号：	G08G1/01	分类号：	G08G1/01;G08G1/017;G08G1/052;G08G1/08
代理公司：	常州佰业腾飞专利代理事务所(普通合伙) 32231	代理人：	滕诣迪
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习无人驾驶车辆城市交叉口通行方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于强化学习的无人驾驶车辆城市交叉口通行方法，其特征在于：

步骤1、通过摄像法采集车辆连续运行状态信息和位置信息，包括速度、横向速度和加速度值、纵向速度和加速度值、行驶轨迹曲率值、油门开度和制动踏板压力；

步骤2、通过聚类处理得到实际数据的特征运动轨迹和速度量；

步骤3、通过指数加权移动平均的方法来处理原始数据；

步骤4、利用NQL算法实现交叉口通行方法；

步骤4、利用NQL算法实现交叉口通行方法具体按照如下步骤进行

步骤4.1状态量S_k设定：包括与交叉路口的车辆相对速度ΔV_i和相对距离D_Li，位置坐标y的差值为一个交叉单元穿越行为系统；

步骤4.2动作量A_k设定：横向和纵向两个方向上的运动决策，空间设置包括车辆的纵向加速度a_l和横向加速度a_h，即决策动作集A＝{a_l，a_h}；

步骤4.3奖励函数的设定，将从安全性、通行效率和驾驶舒适性三个方面来考虑

决策更新迭代过程中设定的奖励函数R_r由安全性奖励函数、效率性奖励函数和舒适性奖励函数三部分组成，具体公式如下：

R_r＝k_sR_s+k_eR_e+k_cR_c+M

其中k_s、k_e、k_c分别表示安全性、通行效率和驾驶舒适性对应的奖励函数的权重值，M为常数；

步骤4.4利用步骤4.1状态量S_k，步骤4.2动作量A_k和动作值函数Q(S_k，A_k)进行当前的决策动作的计算：

S_k+1＝DS_k+FA_k

令

则

其中，矩阵D和矩阵F为算法决策系统的相关系数矩阵；矩阵B为状态量对奖励函数的权重，矩阵C为动作量对奖励函数的权重；权重矩阵H_xx，H_ux，H_xu，H_uu，为NQL算法决策系统的系数矩阵；A′_k为此刻的最优动作量，R_k为神经网络损失函数；

其中

将BP神经网络中各层的权重组成一个参数向量ω＝[ω₁，ω₂，ω₃，ω₄，ω₅，ω₆，ω₇，ω₈]^T，再把环境状态量的二次型表示作为神经网络的输入向量X_k，最后通过动作值函数Q(X_k)＝X_k·ω^T对输入量求偏导数来计算和迭代权重值ω_i，i＝1，2，...8；

步骤4.3奖励函数的设定具体按照如下进行：

步骤4.31安全性奖励函数，

考虑穿越过程中的安全性奖励函数R_s时，要从车辆横向运动和纵向运动两个方面设定；车辆的纵向运动上，在交叉路口中要考虑车头和车尾两个方向上防止碰撞；选择碰撞时间TTC及其倒数来衡量通过安全性，保证在TTC内避免与车辆碰撞，而在其他安全行驶区域没有碰撞发生时，设定的奖励值为零，具体函数设定为：

其中碰撞时间TTC是由前后车距与前后相对车速决定；TTC_th表示碰撞时间的阈值，选取车辆的质心位置来计算相对车距，故要车身大小对碰撞的影响，同时结合原始数据的分析而选取阈值为2s，本车与前车相对距离D_L1，本车与后车相对距离D_L2，本车与前车相对速度ΔV₁，本车与前车相对速度ΔV₂；

另外考虑车辆在穿越过程中横向的速度控制，对于实验车辆而言，其车辆质心位置从相邻车道穿越目标直行车道，可认为安全穿行；本次设定车道宽度为3.5m，横向穿越距离为8.75m，要求车辆的横向运动要在最大TTC时间内横向穿过对向直行车道，函数设定为(车辆横向速度为V_h)：

综合横向和纵向两个方向上的安全性得出总安全性的奖励函数为：

R_s＝k₁R₁+k₂R₂

其中k₁，k₂分别为纵向和横向的安全系数；

步骤4.32通行效率奖励函数

从穿越通行效率上进行奖励函数的设定，穿越行为要在一定时间和空间范围内高效地完成；其表征效率的奖励函数R_e的表达式为：

步骤4.33驾驶员的舒适性，驾驶舒适性纵向上体现在纵向加速度在整个穿越过程中的平均变化，没有出现急加速或急减速的情况来评价纵向控制方法的优劣；而横向上控制瞬时加速度的大小来控制横向上的舒适性，其评价指标为瞬时变化率，表征舒适性的奖惩函数R_c表达式为：

其中Δa表示相邻时刻的加速度变化值，a_max表示此过程中的最大加速度，a_min表示此过程的最小加速度，T表示相邻两个仿真步长的时间(即采样时间)，μ₁、μ₂分别表示加速度平均变化率和加速度瞬时变化率的参数；

神经网络的建立：

步骤4.41神经网络的层数采用以下公式确定：

其中p为输入层节点数，取p＝6；u为输出层节点数，u＝2；b是取值为[1，10]的调整参数，b＝2；

步骤4.42Q(X_k)可以由以下推导得到：

其中f⁽²⁾为输出层的线型隐藏函数，则有f⁽²⁾(x)＝x；且其输出层偏置矩阵b⁽²⁾为0；表示输出层与隐层间所有权重组成的矩阵，f⁽¹⁾为隐层的激活函数，ω⁽¹⁾为输入层与隐层间的权重矩阵，隐层的偏置矩阵b⁽¹⁾；

其中求得权重值是隐层权重与输出层权重的乘积，这一部分为线性部分；而非线性部分里面含有激活函数，激活函数为tanh函数，即有f⁽²⁾(x)＝tan(x)；当其中的权重和偏置很小时，其值可以忽略不计；计算出来的权重值就可以得到各个权重矩阵H_xx、H_ux、H_xu、H_uu，从而得到动作量计算公式中的系数矩阵最后计算得到动作值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810780418.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G08 信号装置
G08G 交通控制系统
G08G1-00 道路车辆的交通控制系统
G08G1-005 .包括行人导引指示器的
G08G1-01 .检测要统计或要控制的交通运动
G08G1-065 .计算一段道路或停车场上的车辆数的，即比较进出车辆数
G08G1-07 .交通信号控制
G08G1-09 .给出可变交通指令的装置

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于强化学习的无人驾驶车辆城市交叉口通行方法有效

专利文献下载