[发明专利]一种基于深度强化学习的智能电动汽车漂移入库控制方法有效
申请号: | 202011530836.4 | 申请日: | 2020-12-22 |
公开(公告)号: | CN112590774B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 冷搏;刘铭;熊璐;余卓平 | 申请(专利权)人: | 同济大学 |
主分类号: | B60W30/06 | 分类号: | B60W30/06;B60W50/00 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 智能 电动汽车 漂移 入库 控制 方法 | ||
1.一种基于深度强化学习的智能电动汽车漂移入库控制方法,其特征在于,包括以下步骤:
1)构建用于深度强化学习的车辆动力学模型以及轮胎力饱和工况下的轮胎模型,车辆动力学模型具体为考虑前后与左右载荷转移的四轮三自由度车辆动力学模型,所述的三自由度包括车辆质心处速度vm、质心侧偏角β和横摆角速度ω,四轮三自由度车辆动力学模型中,考虑纵侧向加速度的四轮垂向力的表达式为:
式中,hm为质心高度,bf、br为前、后轮距,ax、ay为质心处不考虑车身旋转影响的纵、侧向加速度,FzFL、FzFR、FzRL、FzRR分别为左前、右前、左后、右后车轮的垂向力,m为电动汽车质量,g为重力加速度,l为轴距,lf、lr为前、后轴到质心的距离,FxFL、FxFR、FxRL、FxRR分别为左前、右前、左后、右后车轮的纵向力,FyFL、FyFR、FyRL、FyRR分别为左前、右前、左后、右后车轮的侧向力,δ为前轮转角;
在漂移过程中,考虑到载荷转移过大导致某一个车轮离地,出现使得该车轮的垂向载荷降为0、载荷转移达到上限的情况,当方向盘向左转漂移,载荷向右侧转移,左后轮离地时,则左后轮的垂向力为0,此时,根据纵侧向加速度、轴距和轮距将过多转移的载荷重新分配至左前轮和右后轮,则有:
ΔFtrans=|FzRL|
F′zRL=0
其中,ΔFtrans为过多转移的载荷,F′zRL为分配后左后轮的垂向力,F′zRR为分配后右后轮的垂向力,F′zFL为分配后左前轮的垂向力;
对考虑前后与左右载荷转移的四轮三自由度车辆动力学模型进行受力分析,得到车辆动力学平衡方程为:
φ=β+ψ
据此计算得到车辆纵向车速vmx和侧向车速vmy,则有:
vmx=vm·cosβ
vmy=vm·sinβ
其中,为车辆质心处速度的变化率,为质心侧偏角速度,φ为质心处车速全局方位角,为质心处车速全局方位角速度,为横摆角速度的变化率,ψ为车头全局方位角,Iz为横摆转动惯量,vx为车辆纵向车速,vy为车辆侧向车速;
用于深度强化学习训练的轮胎模型包括前轮轮胎力模型和后轮轮胎力模型,对于后轮轮胎力模型,在漂移过程中,后轮制动抱死并在路面上纯摩擦,后轮的轮胎力方向与车轮轮心瞬时速度的方向相反,通过对后轮进行受力分析得到后轮纵侧向轮胎力分量的表达式为:
对于左后轮:
对于右后轮:
Fr_sat=μ1Fz
其中,vxRL、vyRL分别为左后轮轮心处纵、侧向速度,vxRR、vyRR分别为右后轮轮心处纵、侧向速度,λL、λR分别为左、右后轮轮心侧偏角,FxRL、FyRL分别为左后轮纵、侧向力,FxRR、FyRR分别为右后轮纵、侧向力,FrRL_sat、FrRR_sat分别为左、右后轮水平饱和轮胎力,Fr_sat表示对应车轮水平饱和轮胎力,μ1为车轮抱死时路面利用附着系数,Fz表示对应车轮的垂向力;
对于前轮轮胎力模型,在漂移过程中,前轮轮胎力尚未饱和,则采用改进Burckhardt轮胎模型对轮胎力进行拟合,用以表述侧向力与侧偏角的关系,则有:
其中,θ1~θ5为拟合参数,α为前轮侧偏角;
左轮侧偏角αL和右轮侧偏角αR可通过以下公式求得:
由于前轮未施加制动力和驱动力,处于自由滚动状态,有FxFL=0,FxFR=0,在确定前轮轮胎力方向时仅考虑侧向力,则前轮轮胎力方向垂直于轮胎平面,由前轮转向角决定;
2)采用面向漂移入库控制的TD3算法实现智能电动汽车漂移入库,具体包括以下步骤:
21)设计面向漂移入库控制的TD3算法,构建Actor网络和Critic网络,具体为:
Critic网络和Actor网络均为由全连接层组成的BP神经网络,Critic网络的输入为车辆状态和动作,输出为Q值,Actor网络的输入为车辆状态,输出为动作,所述的车辆状态为表征漂移过程车辆状态的参数,包括以车辆质心为原点,车头朝向为y轴正方向的相对坐标系下库位坐标(ex、ey)和库位朝向车辆质心处速度vm、质心侧偏角β以及横摆角速度ω,所述的动作为方向盘转角;
22)构建奖励函数r(k),则有:
其中,wx、wy、分别为ex、ey和的权重,k为时间;
23)对Actor网络和Critic网络进行训练,并据此完成智能电动汽车漂移入库,对Actor网络和Critic网络进行训练前,先确定漂移入库控制器的边界,根据该边界对每次车辆漂移的目标库位位置进行随机取值,在迭代训练中,车辆以随机选取的目标库位位置和朝向计算车辆状态,并据此对Critic网络和Actor网络进行训练,通过在训练过程中随机更新目标库位位置,拓展训练数据集,提升化能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011530836.4/1.html,转载请声明来源钻瓜专利网。