[发明专利]基于强化学习的无人驾驶车辆城市交叉口通行方法有效
申请号: | 201810780418.7 | 申请日: | 2018-07-17 |
公开(公告)号: | CN108932840B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 陈雪梅;杜明明;刘哥盟 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G08G1/01 | 分类号: | G08G1/01;G08G1/017;G08G1/052;G08G1/08 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 滕诣迪 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 无人驾驶 车辆 城市 交叉口 通行 方法 | ||
1.基于强化学习的无人驾驶车辆城市交叉口通行方法,其特征在于:
步骤1、通过摄像法采集车辆连续运行状态信息和位置信息,包括速度、横向速度和加速度值、纵向速度和加速度值、行驶轨迹曲率值、油门开度和制动踏板压力;
步骤2、通过聚类处理得到实际数据的特征运动轨迹和速度量;
步骤3、通过指数加权移动平均的方法来处理原始数据;
步骤4、利用NQL算法实现交叉口通行方法;
步骤4、利用NQL算法实现交叉口通行方法具体按照如下步骤进行
步骤4.1状态量Sk设定:包括与交叉路口的车辆相对速度ΔVi和相对距离DLi,位置坐标y的差值为一个交叉单元穿越行为系统;
步骤4.2动作量Ak设定:横向和纵向两个方向上的运动决策,空间设置包括车辆的纵向加速度al和横向加速度ah,即决策动作集A={al,ah};
步骤4.3奖励函数的设定,将从安全性、通行效率和驾驶舒适性三个方面来考虑
决策更新迭代过程中设定的奖励函数Rr由安全性奖励函数、效率性奖励函数和舒适性奖励函数三部分组成,具体公式如下:
Rr=ksRs+keRe+kcRc+M
其中ks、ke、kc分别表示安全性、通行效率和驾驶舒适性对应的奖励函数的权重值,M为常数;
步骤4.4利用步骤4.1状态量Sk,步骤4.2动作量Ak和动作值函数Q(Sk,Ak)进行当前的决策动作的计算:
Sk+1=DSk+FAk
令
则
其中,矩阵D和矩阵F为算法决策系统的相关系数矩阵;矩阵B为状态量对奖励函数的权重,矩阵C为动作量对奖励函数的权重;权重矩阵Hxx,Hux,Hxu,Huu,为NQL算法决策系统的系数矩阵;A′k为此刻的最优动作量,Rk为神经网络损失函数;
其中
将BP神经网络中各层的权重组成一个参数向量ω=[ω1,ω2,ω3,ω4,ω5,ω6,ω7,ω8]T,再把环境状态量的二次型表示作为神经网络的输入向量Xk,最后通过动作值函数Q(Xk)=Xk·ωT对输入量求偏导数来计算和迭代权重值ωi,i=1,2,...8;
步骤4.3奖励函数的设定具体按照如下进行:
步骤4.31安全性奖励函数,
考虑穿越过程中的安全性奖励函数Rs时,要从车辆横向运动和纵向运动两个方面设定;车辆的纵向运动上,在交叉路口中要考虑车头和车尾两个方向上防止碰撞;选择碰撞时间TTC及其倒数来衡量通过安全性,保证在TTC内避免与车辆碰撞,而在其他安全行驶区域没有碰撞发生时,设定的奖励值为零,具体函数设定为:
其中碰撞时间TTC是由前后车距与前后相对车速决定;TTCth表示碰撞时间的阈值,选取车辆的质心位置来计算相对车距,故要车身大小对碰撞的影响,同时结合原始数据的分析而选取阈值为2s,本车与前车相对距离DL1,本车与后车相对距离DL2,本车与前车相对速度ΔV1,本车与前车相对速度ΔV2;
另外考虑车辆在穿越过程中横向的速度控制,对于实验车辆而言,其车辆质心位置从相邻车道穿越目标直行车道,可认为安全穿行;本次设定车道宽度为3.5m,横向穿越距离为8.75m,要求车辆的横向运动要在最大TTC时间内横向穿过对向直行车道,函数设定为(车辆横向速度为Vh):
综合横向和纵向两个方向上的安全性得出总安全性的奖励函数为:
Rs=k1R1+k2R2
其中k1,k2分别为纵向和横向的安全系数;
步骤4.32通行效率奖励函数
从穿越通行效率上进行奖励函数的设定,穿越行为要在一定时间和空间范围内高效地完成;其表征效率的奖励函数Re的表达式为:
步骤4.33驾驶员的舒适性,驾驶舒适性纵向上体现在纵向加速度在整个穿越过程中的平均变化,没有出现急加速或急减速的情况来评价纵向控制方法的优劣;而横向上控制瞬时加速度的大小来控制横向上的舒适性,其评价指标为瞬时变化率,表征舒适性的奖惩函数Rc表达式为:
其中Δa表示相邻时刻的加速度变化值,amax表示此过程中的最大加速度,amin表示此过程的最小加速度,T表示相邻两个仿真步长的时间(即采样时间),μ1、μ2分别表示加速度平均变化率和加速度瞬时变化率的参数;
神经网络的建立:
步骤4.41神经网络的层数采用以下公式确定:
其中p为输入层节点数,取p=6;u为输出层节点数,u=2;b是取值为[1,10]的调整参数,b=2;
步骤4.42Q(Xk)可以由以下推导得到:
其中f(2)为输出层的线型隐藏函数,则有f(2)(x)=x;且其输出层偏置矩阵b(2)为0;表示输出层与隐层间所有权重组成的矩阵,f(1)为隐层的激活函数,ω(1)为输入层与隐层间的权重矩阵,隐层的偏置矩阵b(1);
其中求得权重值是隐层权重与输出层权重的乘积,这一部分为线性部分;而非线性部分里面含有激活函数,激活函数为tanh函数,即有f(2)(x)=tan(x);当其中的权重和偏置很小时,其值可以忽略不计;计算出来的权重值就可以得到各个权重矩阵Hxx、Hux、Hxu、Huu,从而得到动作量计算公式中的系数矩阵最后计算得到动作值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810780418.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种同行车辆判断方法及装置
- 下一篇:一种车辆通行证管理系统