[发明专利]一种基于深度强化学习的智能汽车稳定性控制方法有效

专利信息
申请号: 201910809910.7 申请日: 2019-08-29
公开(公告)号: CN110450771B 公开(公告)日: 2021-03-09
发明(设计)人: 黄鹤;郭伟锋;张炳力;张润;王博文;吴润晨;程进 申请(专利权)人: 合肥工业大学
主分类号: B60W10/18 分类号: B60W10/18;B60W10/20;B60W30/02;B60W40/068;B60W40/10;B60W40/105;B60W40/12;B60W40/13;B60W50/00
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230009 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 智能 汽车 稳定性 控制 方法
【权利要求书】:

1.一种基于深度强化学习的智能汽车稳定性控制方法,其特征是按如下步骤进行:

步骤1:获取车辆横向控制器决策输出的前轮转角δf以及车辆结构参数,包括:车辆轮距L、质心到前后轴距离Lf和Lr、前后轮侧偏刚度C1和C2、汽车质量m;

获取车辆行驶参数,包括:方向盘转角sw、车速v和路面摩擦系数μ;

步骤2:利用式(1)计算理想横摆角速度wd

式(1)中,g为重力加速度,w为横摆角速度,并有:

步骤3:利用式(3)计算理想质心侧偏角βd

βd=-min{|β|,|βmax|}·sign(δf) (3)

式(3)中,β为车辆质心侧偏角,βmax为车辆最大质心侧偏角,并有:

步骤4:利用式(6)定义深度强化学习方法的车辆状态参数s:

s={w,β,sw,wdd} (6)

步骤5:利用式(7)定义深度强化学习方法的动作参数a:

式(7)中,为方向盘修正转角,为附加横摆力矩;

步骤6:利用式(8)建立深度强化学习方法的奖励函数r:

r=re+rps+rv+rm+rsw+rst (8)

式(8)中,re为误差奖励函数,并有:

式(9)中,为横摆角速度误差,为质心侧偏角误差,并有:

式(8)中,rps为固定奖励值函数,并有:

式(8)中,rv为速度差奖励函数,并有:

式(8)中,rm为附加横摆力矩奖励函数,并有:

式(8)中,rsw为修正角奖励函数,并有:

式(8)中,rst为稳定域奖励函数,并有:

步骤7:构建深度强化学习方法的网络模型:

步骤7.1:构建动作网络模型,包括:包含一个神经元的一层输入层,各自包含n1个神经元的m1层隐藏层,包含2个神经元的一层输出层;初始化动作网络参数为θμ

步骤7.2:构建评价网络模型,包括:各包含1个神经元的两层输入层,各自包含n2个神经元的m2层隐藏层,其中,第m2层隐藏层为全连接层,包含1个神经元的一层输出层;初始化评价网络参数为θQ

步骤7.3:构建与所述动作网络模型结构相同的目标动作网络模型,且令目标动作网络参数θμ′=θμ,构建与所述评价网络模型结构相同的目标评价网络模型,且令目标评价网络参数θQ′=θQ

步骤8:由第i条样本形成N条样本:

初始化第i个车辆状态参数si,并以第i个车辆状态参数si作为所述动作网络模型的输入,由所述动作网络模型输出μ(siμ);

利用式(17)得到第i个车辆动作参数ai

ai=μ(siμ)+Ni (17)

式(17)中,Ni表示第i个随机噪声;

根据式(8)获取第i个车辆奖励值ri,并得到更新后的第i个车辆状态参数si′;从而获得第i条样本,记为(si,ai,ri,s′i),进而得到N条样本;

步骤9:用所述N条样本对所述深度强化学习方法的网络模型进行训练,从而得到最优动作网络模型和最优评价网络模型;

步骤10:判断式(18)和式(19)是否均成立,若均成立,则表示汽车处于稳定状态,否则,表示汽车处于不稳定状态,并执行步骤11:

式(18)中,k1为稳定域第一边界系数,k2为稳定域第二边界系数;为质心侧偏角速度;

式(19)中,ε为可调参数;

步骤11:获取车辆当前状态参数st作为最优动作网络模型的输入,从而利用所述最优动作网络模型输出当前附加横摆力矩和修正转角

步骤12:判断式(20)是否成立,若成立,则表示汽车的转向性质为不足转向,则令动作车轮为内后轮,并执行步骤13,否则,表示汽车的转向性质为过多转向,则令动作车轮为外前轮,并执行步骤14;

wd×(w-wd)>0 (20)

步骤13:若δf>0,则令修正转角的方向向左,若δf<0,则令修正转角的方向向右;

步骤14:若δf>0,则令修正转角的方向向右,若δf<0,则令修正转角的方向向左。

2.根据权利要求1所述的智能汽车稳定性控制方法,其特征是,所述步骤9是按如下过程进行:

步骤9.1:初始化学习率参数为α,回报率参数为γ;初始化i=1;

步骤9.2:以所述第i个车辆状态参数si作为当前第i个动作网络模型的输入,由所述当前第i个动作网络模型输出第i个输出值μ(siμ);

以所述第i个车辆状态参数si、第i个车辆动作参数ai和动作网络的第i个输出值μ(siμ)均作为当前第i个评价网络模型的输入,由所述第i个车辆状态参数si和第i个车辆动作参数ai经过所述当前第i个评价网络模型输出第i个输出值Qi(ai);由所述动作网络模型的第i个输出值μ(siμ)经过所述当前第i个评价网络模型输出第i个输出值Qi(μ(siμ));

以所述更新后的第i个车辆状态参数s′i作为当前第i个目标动作网络模型的输入,由所述当前第i个目标动作网络模型输出第i个输出值μ(s′iμ′);

以所述更新后的第i个车辆状态参数s′i和目标动作网络模型的第i个输出值μ(s′iμ′)作为当前第i个目标评价网络模型的输入,由所述当前第i个目标评价网络模型输出第i个输出值Q′i(a′i);

根据所述当前第i个评价网络模型的第i个输出值Qi(μ(siμ))利用策略梯度法对所述当前第i个动作网络模型进行更新,从而得到第i次更新后的动作网络模型并作为第i+1个动作网络模型;

根据当前第i个评价网络模型的输出Qi(ai)以及所述当前第i个目标评价网络模型的输出Q′i(a′i),利用最小化损失函数对所述当前第i个评价网络模型进行更新,从而得到第i次更新后的评价网络模型并作为第i+1个评价网络模型;

步骤9.3:将i+1赋值给i后,判断i>N是否成立,若成立,则表示得到最优动作网络模型和最优评价网络模型,否则,返回步骤9.2执行。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910809910.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top