[发明专利]一种基于深度强化学习的智能汽车稳定性控制方法有效

申请号：	201910809910.7	申请日：	2019-08-29
公开（公告）号：	CN110450771B	公开（公告）日：	2021-03-09
发明（设计）人：	黄鹤;郭伟锋;张炳力;张润;王博文;吴润晨;程进	申请（专利权）人：	合肥工业大学
主分类号：	B60W10/18	分类号：	B60W10/18;B60W10/20;B60W30/02;B60W40/068;B60W40/10;B60W40/105;B60W40/12;B60W40/13;B60W50/00
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习智能汽车稳定性控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的智能汽车稳定性控制方法，其特征是按如下步骤进行：

步骤1：获取车辆横向控制器决策输出的前轮转角δ_f以及车辆结构参数，包括：车辆轮距L、质心到前后轴距离L_f和L_r、前后轮侧偏刚度C₁和C₂、汽车质量m；

获取车辆行驶参数，包括：方向盘转角sw、车速v和路面摩擦系数μ；

步骤2：利用式(1)计算理想横摆角速度w_d：

式(1)中，g为重力加速度，w为横摆角速度，并有：

步骤3：利用式(3)计算理想质心侧偏角β_d：

β_d＝-min{|β|,|β_max|}·sign(δ_f) (3)

式(3)中，β为车辆质心侧偏角，β_max为车辆最大质心侧偏角，并有：

步骤4：利用式(6)定义深度强化学习方法的车辆状态参数s：

s＝{w,β,sw,w_d,β_d} (6)

步骤5：利用式(7)定义深度强化学习方法的动作参数a：

式(7)中，为方向盘修正转角，为附加横摆力矩；

步骤6：利用式(8)建立深度强化学习方法的奖励函数r：

r＝r_e+r_ps+r_v+r_m+r_sw+r_st (8)

式(8)中，r_e为误差奖励函数，并有：

式(9)中，为横摆角速度误差，为质心侧偏角误差，并有：

式(8)中，r_ps为固定奖励值函数，并有：

式(8)中，r_v为速度差奖励函数，并有：

式(8)中，r_m为附加横摆力矩奖励函数，并有：

式(8)中，r_sw为修正角奖励函数，并有：

式(8)中，r_st为稳定域奖励函数，并有：

步骤7：构建深度强化学习方法的网络模型：

步骤7.1：构建动作网络模型，包括：包含一个神经元的一层输入层，各自包含n₁个神经元的m₁层隐藏层，包含2个神经元的一层输出层；初始化动作网络参数为θ^μ；

步骤7.2：构建评价网络模型，包括：各包含1个神经元的两层输入层，各自包含n₂个神经元的m₂层隐藏层，其中，第m₂层隐藏层为全连接层，包含1个神经元的一层输出层；初始化评价网络参数为θ^Q；

步骤7.3：构建与所述动作网络模型结构相同的目标动作网络模型，且令目标动作网络参数θ^μ′＝θ^μ，构建与所述评价网络模型结构相同的目标评价网络模型，且令目标评价网络参数θ^Q′＝θ^Q；

步骤8：由第i条样本形成N条样本：

初始化第i个车辆状态参数s_i，并以第i个车辆状态参数s_i作为所述动作网络模型的输入，由所述动作网络模型输出μ(s_i|θ^μ)；

利用式(17)得到第i个车辆动作参数a_i：

a_i＝μ(s_i|θ^μ)+N_i (17)

式(17)中，N_i表示第i个随机噪声；

根据式(8)获取第i个车辆奖励值r_i，并得到更新后的第i个车辆状态参数s_i′；从而获得第i条样本，记为(s_i,a_i,r_i,s′_i)，进而得到N条样本；

步骤9：用所述N条样本对所述深度强化学习方法的网络模型进行训练，从而得到最优动作网络模型和最优评价网络模型；

步骤10：判断式(18)和式(19)是否均成立，若均成立，则表示汽车处于稳定状态，否则，表示汽车处于不稳定状态，并执行步骤11：

式(18)中，k₁为稳定域第一边界系数，k₂为稳定域第二边界系数；为质心侧偏角速度；

式(19)中，ε为可调参数；

步骤11：获取车辆当前状态参数s_t作为最优动作网络模型的输入，从而利用所述最优动作网络模型输出当前附加横摆力矩和修正转角

步骤12：判断式(20)是否成立，若成立，则表示汽车的转向性质为不足转向，则令动作车轮为内后轮，并执行步骤13，否则，表示汽车的转向性质为过多转向，则令动作车轮为外前轮，并执行步骤14；

w_d×(w-w_d)＞0 (20)

步骤13：若δ_f＞0，则令修正转角的方向向左，若δ_f＜0，则令修正转角的方向向右；

步骤14：若δ_f＞0，则令修正转角的方向向右，若δ_f＜0，则令修正转角的方向向左。

2.根据权利要求1所述的智能汽车稳定性控制方法，其特征是，所述步骤9是按如下过程进行：

步骤9.1：初始化学习率参数为α，回报率参数为γ；初始化i＝1；

步骤9.2：以所述第i个车辆状态参数s_i作为当前第i个动作网络模型的输入，由所述当前第i个动作网络模型输出第i个输出值μ(s_i|θ^μ)；

以所述第i个车辆状态参数s_i、第i个车辆动作参数a_i和动作网络的第i个输出值μ(s_i|θ^μ)均作为当前第i个评价网络模型的输入，由所述第i个车辆状态参数s_i和第i个车辆动作参数a_i经过所述当前第i个评价网络模型输出第i个输出值Q_i(a_i)；由所述动作网络模型的第i个输出值μ(s_i|θ^μ)经过所述当前第i个评价网络模型输出第i个输出值Q_i(μ(s_i|θ^μ))；

以所述更新后的第i个车辆状态参数s′_i作为当前第i个目标动作网络模型的输入，由所述当前第i个目标动作网络模型输出第i个输出值μ(s′_i|θ^μ′)；

以所述更新后的第i个车辆状态参数s′_i和目标动作网络模型的第i个输出值μ(s′_i|θ^μ′)作为当前第i个目标评价网络模型的输入，由所述当前第i个目标评价网络模型输出第i个输出值Q′_i(a′_i)；

根据所述当前第i个评价网络模型的第i个输出值Q_i(μ(s_i|θ^μ))利用策略梯度法对所述当前第i个动作网络模型进行更新，从而得到第i次更新后的动作网络模型并作为第i+1个动作网络模型；

根据当前第i个评价网络模型的输出Q_i(a_i)以及所述当前第i个目标评价网络模型的输出Q′_i(a′_i)，利用最小化损失函数对所述当前第i个评价网络模型进行更新，从而得到第i次更新后的评价网络模型并作为第i+1个评价网络模型；

步骤9.3：将i+1赋值给i后，判断i＞N是否成立，若成立，则表示得到最优动作网络模型和最优评价网络模型，否则，返回步骤9.2执行。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910809910.7/1.html，转载请声明来源钻瓜专利网。

上一篇：具有扭矩分配再生制动的混合动力电动车辆
下一篇：混合动力车辆的方法和系统

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统
B60W10-00 不同类型或不同功能的车辆子系统的联合控制
B60W10-02 . 包括动力传动离合器的控制的
B60W10-04 . 包括动力单元的控制的
B60W10-10 .包括变速传动装置的控制的
B60W10-119 .包括全轮驱动装置的控制的，例如用于在前后轴之间分配扭矩的传动齿轮或离合器
B60W10-12 .包括差速装置的控制的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的智能汽车稳定性控制方法有效

专利文献下载