[发明专利]一种基于深度强化学习的智能汽车稳定性控制方法有效
申请号: | 201910809910.7 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110450771B | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 黄鹤;郭伟锋;张炳力;张润;王博文;吴润晨;程进 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | B60W10/18 | 分类号: | B60W10/18;B60W10/20;B60W30/02;B60W40/068;B60W40/10;B60W40/105;B60W40/12;B60W40/13;B60W50/00 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 智能 汽车 稳定性 控制 方法 | ||
1.一种基于深度强化学习的智能汽车稳定性控制方法,其特征是按如下步骤进行:
步骤1:获取车辆横向控制器决策输出的前轮转角δf以及车辆结构参数,包括:车辆轮距L、质心到前后轴距离Lf和Lr、前后轮侧偏刚度C1和C2、汽车质量m;
获取车辆行驶参数,包括:方向盘转角sw、车速v和路面摩擦系数μ;
步骤2:利用式(1)计算理想横摆角速度wd:
式(1)中,g为重力加速度,w为横摆角速度,并有:
步骤3:利用式(3)计算理想质心侧偏角βd:
βd=-min{|β|,|βmax|}·sign(δf) (3)
式(3)中,β为车辆质心侧偏角,βmax为车辆最大质心侧偏角,并有:
步骤4:利用式(6)定义深度强化学习方法的车辆状态参数s:
s={w,β,sw,wd,βd} (6)
步骤5:利用式(7)定义深度强化学习方法的动作参数a:
式(7)中,为方向盘修正转角,为附加横摆力矩;
步骤6:利用式(8)建立深度强化学习方法的奖励函数r:
r=re+rps+rv+rm+rsw+rst (8)
式(8)中,re为误差奖励函数,并有:
式(9)中,为横摆角速度误差,为质心侧偏角误差,并有:
式(8)中,rps为固定奖励值函数,并有:
式(8)中,rv为速度差奖励函数,并有:
式(8)中,rm为附加横摆力矩奖励函数,并有:
式(8)中,rsw为修正角奖励函数,并有:
式(8)中,rst为稳定域奖励函数,并有:
步骤7:构建深度强化学习方法的网络模型:
步骤7.1:构建动作网络模型,包括:包含一个神经元的一层输入层,各自包含n1个神经元的m1层隐藏层,包含2个神经元的一层输出层;初始化动作网络参数为θμ;
步骤7.2:构建评价网络模型,包括:各包含1个神经元的两层输入层,各自包含n2个神经元的m2层隐藏层,其中,第m2层隐藏层为全连接层,包含1个神经元的一层输出层;初始化评价网络参数为θQ;
步骤7.3:构建与所述动作网络模型结构相同的目标动作网络模型,且令目标动作网络参数θμ′=θμ,构建与所述评价网络模型结构相同的目标评价网络模型,且令目标评价网络参数θQ′=θQ;
步骤8:由第i条样本形成N条样本:
初始化第i个车辆状态参数si,并以第i个车辆状态参数si作为所述动作网络模型的输入,由所述动作网络模型输出μ(si|θμ);
利用式(17)得到第i个车辆动作参数ai:
ai=μ(si|θμ)+Ni (17)
式(17)中,Ni表示第i个随机噪声;
根据式(8)获取第i个车辆奖励值ri,并得到更新后的第i个车辆状态参数si′;从而获得第i条样本,记为(si,ai,ri,s′i),进而得到N条样本;
步骤9:用所述N条样本对所述深度强化学习方法的网络模型进行训练,从而得到最优动作网络模型和最优评价网络模型;
步骤10:判断式(18)和式(19)是否均成立,若均成立,则表示汽车处于稳定状态,否则,表示汽车处于不稳定状态,并执行步骤11:
式(18)中,k1为稳定域第一边界系数,k2为稳定域第二边界系数;为质心侧偏角速度;
式(19)中,ε为可调参数;
步骤11:获取车辆当前状态参数st作为最优动作网络模型的输入,从而利用所述最优动作网络模型输出当前附加横摆力矩和修正转角
步骤12:判断式(20)是否成立,若成立,则表示汽车的转向性质为不足转向,则令动作车轮为内后轮,并执行步骤13,否则,表示汽车的转向性质为过多转向,则令动作车轮为外前轮,并执行步骤14;
wd×(w-wd)>0 (20)
步骤13:若δf>0,则令修正转角的方向向左,若δf<0,则令修正转角的方向向右;
步骤14:若δf>0,则令修正转角的方向向右,若δf<0,则令修正转角的方向向左。
2.根据权利要求1所述的智能汽车稳定性控制方法,其特征是,所述步骤9是按如下过程进行:
步骤9.1:初始化学习率参数为α,回报率参数为γ;初始化i=1;
步骤9.2:以所述第i个车辆状态参数si作为当前第i个动作网络模型的输入,由所述当前第i个动作网络模型输出第i个输出值μ(si|θμ);
以所述第i个车辆状态参数si、第i个车辆动作参数ai和动作网络的第i个输出值μ(si|θμ)均作为当前第i个评价网络模型的输入,由所述第i个车辆状态参数si和第i个车辆动作参数ai经过所述当前第i个评价网络模型输出第i个输出值Qi(ai);由所述动作网络模型的第i个输出值μ(si|θμ)经过所述当前第i个评价网络模型输出第i个输出值Qi(μ(si|θμ));
以所述更新后的第i个车辆状态参数s′i作为当前第i个目标动作网络模型的输入,由所述当前第i个目标动作网络模型输出第i个输出值μ(s′i|θμ′);
以所述更新后的第i个车辆状态参数s′i和目标动作网络模型的第i个输出值μ(s′i|θμ′)作为当前第i个目标评价网络模型的输入,由所述当前第i个目标评价网络模型输出第i个输出值Q′i(a′i);
根据所述当前第i个评价网络模型的第i个输出值Qi(μ(si|θμ))利用策略梯度法对所述当前第i个动作网络模型进行更新,从而得到第i次更新后的动作网络模型并作为第i+1个动作网络模型;
根据当前第i个评价网络模型的输出Qi(ai)以及所述当前第i个目标评价网络模型的输出Q′i(a′i),利用最小化损失函数对所述当前第i个评价网络模型进行更新,从而得到第i次更新后的评价网络模型并作为第i+1个评价网络模型;
步骤9.3:将i+1赋值给i后,判断i>N是否成立,若成立,则表示得到最优动作网络模型和最优评价网络模型,否则,返回步骤9.2执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910809910.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有扭矩分配再生制动的混合动力电动车辆
- 下一篇:混合动力车辆的方法和系统