[发明专利]基于强化学习的无人驾驶车辆城市交叉口通行方法有效

专利信息
申请号: 201810780418.7 申请日: 2018-07-17
公开(公告)号: CN108932840B 公开(公告)日: 2021-09-07
发明(设计)人: 陈雪梅;杜明明;刘哥盟 申请(专利权)人: 北京理工大学
主分类号: G08G1/01 分类号: G08G1/01;G08G1/017;G08G1/052;G08G1/08
代理公司: 常州佰业腾飞专利代理事务所(普通合伙) 32231 代理人: 滕诣迪
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 强化 学习 无人驾驶 车辆 城市 交叉口 通行 方法
【权利要求书】:

1.基于强化学习的无人驾驶车辆城市交叉口通行方法,其特征在于:

步骤1、通过摄像法采集车辆连续运行状态信息和位置信息,包括速度、横向速度和加速度值、纵向速度和加速度值、行驶轨迹曲率值、油门开度和制动踏板压力;

步骤2、通过聚类处理得到实际数据的特征运动轨迹和速度量;

步骤3、通过指数加权移动平均的方法来处理原始数据;

步骤4、利用NQL算法实现交叉口通行方法;

步骤4、利用NQL算法实现交叉口通行方法具体按照如下步骤进行

步骤4.1状态量Sk设定:包括与交叉路口的车辆相对速度ΔVi和相对距离DLi,位置坐标y的差值为一个交叉单元穿越行为系统;

步骤4.2动作量Ak设定:横向和纵向两个方向上的运动决策,空间设置包括车辆的纵向加速度al和横向加速度ah,即决策动作集A={al,ah};

步骤4.3奖励函数的设定,将从安全性、通行效率和驾驶舒适性三个方面来考虑

决策更新迭代过程中设定的奖励函数Rr由安全性奖励函数、效率性奖励函数和舒适性奖励函数三部分组成,具体公式如下:

Rr=ksRs+keRe+kcRc+M

其中ks、ke、kc分别表示安全性、通行效率和驾驶舒适性对应的奖励函数的权重值,M为常数;

步骤4.4利用步骤4.1状态量Sk,步骤4.2动作量Ak和动作值函数Q(Sk,Ak)进行当前的决策动作的计算:

Sk+1=DSk+FAk

其中,矩阵D和矩阵F为算法决策系统的相关系数矩阵;矩阵B为状态量对奖励函数的权重,矩阵C为动作量对奖励函数的权重;权重矩阵Hxx,Hux,Hxu,Huu,为NQL算法决策系统的系数矩阵;A′k为此刻的最优动作量,Rk为神经网络损失函数;

其中

将BP神经网络中各层的权重组成一个参数向量ω=[ω1,ω2,ω3,ω4,ω5,ω6,ω7,ω8]T,再把环境状态量的二次型表示作为神经网络的输入向量Xk,最后通过动作值函数Q(Xk)=Xk·ωT对输入量求偏导数来计算和迭代权重值ωi,i=1,2,...8;

步骤4.3奖励函数的设定具体按照如下进行:

步骤4.31安全性奖励函数,

考虑穿越过程中的安全性奖励函数Rs时,要从车辆横向运动和纵向运动两个方面设定;车辆的纵向运动上,在交叉路口中要考虑车头和车尾两个方向上防止碰撞;选择碰撞时间TTC及其倒数来衡量通过安全性,保证在TTC内避免与车辆碰撞,而在其他安全行驶区域没有碰撞发生时,设定的奖励值为零,具体函数设定为:

其中碰撞时间TTC是由前后车距与前后相对车速决定;TTCth表示碰撞时间的阈值,选取车辆的质心位置来计算相对车距,故要车身大小对碰撞的影响,同时结合原始数据的分析而选取阈值为2s,本车与前车相对距离DL1,本车与后车相对距离DL2,本车与前车相对速度ΔV1,本车与前车相对速度ΔV2

另外考虑车辆在穿越过程中横向的速度控制,对于实验车辆而言,其车辆质心位置从相邻车道穿越目标直行车道,可认为安全穿行;本次设定车道宽度为3.5m,横向穿越距离为8.75m,要求车辆的横向运动要在最大TTC时间内横向穿过对向直行车道,函数设定为(车辆横向速度为Vh):

综合横向和纵向两个方向上的安全性得出总安全性的奖励函数为:

Rs=k1R1+k2R2

其中k1,k2分别为纵向和横向的安全系数;

步骤4.32通行效率奖励函数

从穿越通行效率上进行奖励函数的设定,穿越行为要在一定时间和空间范围内高效地完成;其表征效率的奖励函数Re的表达式为:

步骤4.33驾驶员的舒适性,驾驶舒适性纵向上体现在纵向加速度在整个穿越过程中的平均变化,没有出现急加速或急减速的情况来评价纵向控制方法的优劣;而横向上控制瞬时加速度的大小来控制横向上的舒适性,其评价指标为瞬时变化率,表征舒适性的奖惩函数Rc表达式为:

其中Δa表示相邻时刻的加速度变化值,amax表示此过程中的最大加速度,amin表示此过程的最小加速度,T表示相邻两个仿真步长的时间(即采样时间),μ1、μ2分别表示加速度平均变化率和加速度瞬时变化率的参数;

神经网络的建立:

步骤4.41神经网络的层数采用以下公式确定:

其中p为输入层节点数,取p=6;u为输出层节点数,u=2;b是取值为[1,10]的调整参数,b=2;

步骤4.42Q(Xk)可以由以下推导得到:

其中f(2)为输出层的线型隐藏函数,则有f(2)(x)=x;且其输出层偏置矩阵b(2)为0;表示输出层与隐层间所有权重组成的矩阵,f(1)为隐层的激活函数,ω(1)为输入层与隐层间的权重矩阵,隐层的偏置矩阵b(1)

其中求得权重值是隐层权重与输出层权重的乘积,这一部分为线性部分;而非线性部分里面含有激活函数,激活函数为tanh函数,即有f(2)(x)=tan(x);当其中的权重和偏置很小时,其值可以忽略不计;计算出来的权重值就可以得到各个权重矩阵Hxx、Hux、Hxu、Huu,从而得到动作量计算公式中的系数矩阵最后计算得到动作值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810780418.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top