[发明专利]基于DDPG的线控转向系统转向补偿控制方法及装置有效
申请号: | 202110357530.1 | 申请日: | 2021-04-01 |
公开(公告)号: | CN112977606B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 薛仲瑾;李亮;赵锦涛;黄昌尧;钟志华 | 申请(专利权)人: | 清华大学 |
主分类号: | B62D5/04 | 分类号: | B62D5/04;B62D6/00;G06F30/15;G06F30/27;G06N3/04;G06N3/08;B62D113/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 欧阳高凤 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ddpg 转向 系统 补偿 控制 方法 装置 | ||
1.一种基于DDPG的线控转向系统转向补偿控制方法,其特征在于,包括以下步骤:
S1,建立线控转向系统的动作Actor网络和动作价值Critic网络,根据所述动作Actor网络和所述动作价值Critic网络构建深度确定性策略梯度学习算法框架;
S2,设计训练所需的奖励函数;
S3,根据所述奖励函数及所述深度确定性策略梯度学习算法框架建立深度确定性策略梯度算法;
S4,对所述深度确定性策略梯度算法进行硬件在环及实车训练,调整深度确定性策略梯度算法动作Actor网络与动作价值Critic网络的参数,以使所述深度确定性策略梯度算法得到目标转角补偿值。
2.根据权利要求1所述的方法,其特征在于,所述S1进一步包括:
S11,定义状态空间S={vx,wz,δ,δdes}和状态向量st=[vx_t,wz_t,δt,δt-1,δdes_t,δdes_t-1]T,st∈S,其中,vx为车辆纵向车速,wz为车辆横摆角速度,δ为实际转角,δdes为目标转角,t为当前时刻,t-1为上一时刻;
S12,建立所述动作Actor网络a=μ(s|θμ),其中,μ表示动作Actor网络,状态变量s为网络输入,θμ为网络参数,a为网络输出动作;
S13,建立所述动作价值Critic网络Q(s,a|θQ),其中,Q表示动作价值Critic网络,状态变量s以及动作Actor网络的输出动作a为输入,θQ为网络参数。
3.根据权利要求2所述的方法,其特征在于,所述奖励函数为:
r=-w1|δdes-δa|-w2(δdes-δa)2-w3|ΔIoutput|
其中,δdes为目标转角,δa为线控转向实际转角,ΔIoutput为动作Actor网络的当前输出和上一时刻的输出之间的距离,wi,i=1,2,3为各项的权重系数。
4.根据权利要求1所述的方法,其特征在于,所述动作Actor网络和所述动作价值Critic网络为隐层式神经网络。
5.根据权利要求1所述的方法,其特征在于,对所述深度确定性策略梯度算法进行训练,进一步包括:
根据线控转向系统的不同工况下的转向场景,对深度确定性策略梯度算法进行硬件在环训练,硬件在环训练系统包括上位机PC、下位机PXI、线控转向系统ECU以及线控转向台架;训练过程中,DDPG的输出作为目标转角的补偿值,将补偿后的目标转角命令发送给线控转向系统底层控制器,此外,将线控转向台架底层执行的实际的转角发送给上位机,作为车辆运行仿真软件Carsim的输入,DDPG的状态向量st=[vx_t,wz_t,δt,δt-1,δdes_t,δdes_t-1]T,st∈S通过Carsim输出的车辆状态和系统最初输入的目标转角得到,利用学习算法调整动作Actor网络和动作价值Critic网络的参数。
6.根据权利要求5所述的方法,其特征在于,S4之后还包括:
S5,将硬件在环训练得到的算法先验网络参数作为算法网络参数的初始值应用到实车上,根据车辆运行过程中的即时数据,实时对算法的网络参数进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110357530.1/1.html,转载请声明来源钻瓜专利网。