[发明专利]一种基于深度强化学习的三轴重型车自适应巡航控制算法有效
申请号: | 202010749185.1 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111824182B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 赵伟强;孙铭;牟嘉鹏;宗长富 | 申请(专利权)人: | 吉林大学 |
主分类号: | B60W60/00 | 分类号: | B60W60/00;B60W40/00;B60W30/14 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 刘小娇 |
地址: | 130000 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 重型车 自适应 巡航 控制 算法 | ||
1.一种基于深度强化学习的三轴重型车自适应巡航控制算法,其特征在于,包括如下步骤:
步骤一、获取表征车辆状态的特征值;
其中,所述车辆状态包括:本车质心相对于车道中线位置的偏移、本车与前车的距离、前车车速和本车车速;
步骤二、将所述表征车辆状态的特征值输入强化学习网络模型,得到车辆控制参数;并且根据所述车辆状态特征值与其对应的车辆控制参数确定奖励函数;
其中,所述车辆控制参数包括:方向盘转角、制动踏板开度和油门踏板开度;所述奖励函数为:
式中,为本车侧倾角,vkl为前车车速,ve为本车车速,vset为自适应巡航的期望车速,Derror为本车与前车的距离,vvkl为本车车速和目标车速的比值;R1为车辆稳定性奖励函数;e为车辆质心相对于车道中心的偏移量;
步骤三、对所述强化学习网络模型进行优化,直到获得所述奖励函数的最大值,得到最优强化学习网络;
其中,在车辆自适应巡航状态下,通过所述最优强化学习网络得到的方向盘转角、制动踏板开度和油门踏板开度。
2.根据权利要求1所述的基于深度强化学习的三轴重型车自适应巡航控制算法,其特征在于,所述车辆稳定性奖励函数为:
式中,kr为车辆稳定性系数,LTR为横向载荷转移率,ε为调节参数。
3.根据权利要求2所述的基于深度强化学习的三轴重型车自适应巡航控制算法,其特征在于,所述横向荷载转移率为:
式中,Fzr、Fzl分别车辆左右轮的垂直载荷。
4.根据权利要求2或3所述的基于深度强化学习的三轴重型车自适应巡航控制算法,其特征在于,在所述步骤二中,所述强化学习网络包括:演员网络和评论家网络;并且所述演员网络和所述评论家网络采用异构确定性策略梯度进行优化;
其中,所述异构确定性策略梯度为:
式中,β为采样策略,ρ为状态分布,μ(s|θμ)为确定性策略,Q(s,a|θQ)为动作价值函数,a为强化学习网络选择的动作,s为强化学习网络的状态,si为强化学习网络的第i个状态,θ为策略参数。
5.根据权利要求4所述的基于深度强化学习的三轴重型车自适应巡航控制算法,其特征在于,所述评论家网络优化过程中的权值更新算法为:
其中,δi为时间差分误差,ri表示当前时刻奖励,Q′表示当前时刻的动作价值函数的估计值,Q表示上一时刻的动作价值函数值。
6.据权利要求5所述的基于深度强化学习的三轴重型车自适应巡航控制算法,其特征在于,还包括:
在所述步骤三中,当LTR>0.95时,结束当前优化过程,并且开始新的优化周期。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010749185.1/1.html,转载请声明来源钻瓜专利网。