[发明专利]一种基于深度强化学习A3C算法的HEV能量管理方法有效
申请号: | 202010657917.4 | 申请日: | 2020-07-09 |
公开(公告)号: | CN111731303B | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 唐小林;陈佳信;蒲华燕;张志强;阳鑫;胡晓松;李佳承 | 申请(专利权)人: | 重庆大学 |
主分类号: | B60W40/00 | 分类号: | B60W40/00;B60W50/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 杨柳岸 |
地址: | 400044 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 a3c 算法 hev 能量 管理 方法 | ||
1.一种基于深度强化学习A3C算法的HEV能量管理方法,其特征在于,该方法包括以下步骤:
S1:基于车辆行驶标准工况数据,按照工况的特征参数划分标准工况;
S2:建立混合动力汽车的动力学模型,计算整车的需求功率;
S3:根据能量管理策略确定需要的状态变量、动作变量以及奖励函数;
S4:建立A3C算法模型,并设定四个用于学习的环境-智能体模块;所述A3C算法为异步优势演员-评论家(Asynchronous Advantage Actor-Critic,A3C)算法;
S5:根据电池SOC以及需求功率的大小,设计并加入基于规则的发动机启停策略;
S6:结合混合动力汽车的动力学模型与A3C算法模型,四个环境-智能体模块中分别加载不同类型的标准工况,通过不断迭代试错的学习方式训练算法模型中的深度神经网络,当总奖励处于稳定收敛状态后结束训练过程,并且保存全局神经网络的持久化模型;
S7:训练完毕后,结合多组新的不同类型随机工况测试全局神经网络学习效果。
2.根据权利要求1所述的HEV能量管理方法,其特征在于,所述步骤S1中,标准工况划分的具体方法是:根据平均速度vmean、平均加速度amean、怠速时间比tidel、最大速度vmax和最大加速度amax,采用聚类方法将所有工况数据划分为四类:拥堵工况、城区工况、郊区工况和高速工况。
3.根据权利要求1所述的HEV能量管理方法,其特征在于,所述步骤S2中,计算相应时刻整车的需求功率为:
其中,Pdemand为整车需求功率,m为整车质量,G为整车重量,f为滚动阻力系数,i为道路坡度,CD为空气阻力系数,A为迎风面积,ua为行驶速度,为车辆纵向加速度,δ为旋转质量换算系数,ηT为传动系效率。
4.根据权利要求1所述的HEV能量管理方法,其特征在于,所述步骤S3具体包括:
(1)定义状态变量包括行驶速度ua、车辆纵向加速度a、电池SOC和整车需求功率Pdemand;
(2)定义动作变量为发动机节气门开度throttle;
(3)定义奖励函数为:
其中,α、β为权重参数,为发动机瞬时燃油消耗量,SOCtarget为参考SOC,Teng、ωeng分别为发动机转矩与发动机转速。
5.根据权利要求1所述的HEV能量管理方法,其特征在于,所述步骤S4中,建立A3C算法模型具体包括:根据电脑CPU核数建立A3C算法模型的四个环境-智能体模块,并且在TensorFlow深度学习框架下建立每个环境-智能体模块以及全局神经网络模块中的深度神经网络,指定每个模块分别针对一种类型的标准工况搭建环境。
6.根据权利要求1所述的HEV能量管理方法,其特征在于,所述步骤S5中,发动机启停策略具体包括:根据需求功率将问题划分为四部分:
(1)需求功率小于零时,发动机关闭,当前车辆处于再生制动状态;
(2)需求功率等于零时,发动机关闭,当前车辆处于静止状态;
(3)需求功率大于零且大于电机最大功率时,发动机启动,当前车辆处于混合驱动状态;
(4)需求功率大于零但小于电机最大功率时,根据SOC进行划分:当SOC大于上限阈值,关闭发动机;当SOC小于下限阈值,启动发动机;当SOC在规定范围内,保持发动机当前启停状态,直到SOC达到阈值后改变;当前车辆运行状态在纯电动驱动模式与行车充电模式之间互相切换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010657917.4/1.html,转载请声明来源钻瓜专利网。