[发明专利]一种基于深度强化学习A3C算法的HEV能量管理方法有效

申请号：	202010657917.4	申请日：	2020-07-09
公开（公告）号：	CN111731303B	公开（公告）日：	2021-04-23
发明（设计）人：	唐小林;陈佳信;蒲华燕;张志强;阳鑫;胡晓松;李佳承	申请（专利权）人：	重庆大学
主分类号：	B60W40/00	分类号：	B60W40/00;B60W50/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	杨柳岸
地址：	400044 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习 a3c 算法 hev 能量管理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于深度强化学习A3C算法的HEV能量管理方法，属于新能源汽车领域。该方法包括：S1：根据工况的特征参数划分车辆行驶标准工况；S2：计算整车的需求功率；S3：确定需要的状态变量、动作变量以及奖励函数；S4：建立A3C算法模型，设定环境‑智能体模块；S5：根据电池SOC以及需求功率的大小，设计并加入基于规则的发动机启停策略；S6：环境‑智能体模块中分别加载不同类型的标准工况，通过不断迭代试错的学习方式训练算法模型中的深度神经网络，当总奖励处于稳定收敛状态后结束训练过程，并且保存全局神经网络的持久化模型。本发明在保证燃油经济性的条件下实现对所有随机工况的自适应能力。

技术领域

本发明属于新能源汽车领域，涉及一种基于深度强化学习A3C算法的混合动力汽车能量管理策略。

背景技术

混合动力汽车作为汽车产业从燃油车向纯电动汽车发展的过渡产品，克服了纯电动汽车的续航里程问题以及燃油车的油耗与排放问题，因此在新能源汽车产业发展的大背景下同样拥有的良好的发展前景，而其中的核心技术——混合动力汽车能量管理策略，始终是混合动力汽车领域研究的重点课题。

近年来，Google Deep Mind团队将深度学习和强化学习相结合，提出了更加具有智能感的学习算法——深度强化学习，并且研发了围棋机器人Alpha Go。汽车工程领域研究人员也开始将深度强化学习应用于设计能量管理策略，并且形成了能量管理算法的新类型——基于学习。目前使用较多的深度强化学习算法是深度值网络(Deep Q-Learning,DQN)与深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)。

简单来说，深度值网络算法是在强化学习中Q-Learning算法的基础上，引入了深度学习中的深度神经网络(Deep Neural Network,DNN)，利用一个深度神经网络拟合原先Q-Learning算法中的二维值函数表格，进而使得DQN算法不再受到“维度灾难”的影响。通过环境模块的状态量与奖励值以及智能体模块的动作量之间相互传输，在不断迭代试错的学习方法之下可以找到最优能量管理策略。同时DQN也加入经验回放机制与目标神经网络，目的是为了减少更新深度神经网络时样本数据之间的相关性，从而实现对神经网络更加全面的训练效果。DDPG则是在演员-评论家算法的基础上发展出来的，通常建立两种深度神经网络——演员网络与评论家网络，前者用于拟合策略函数而后者用于拟合值函数。DDPG最大的优势就在于可以对动作变量不进行离散化处理，这一点是DQN做不到的，因此DQN适用于离散控制动作而DDPG适用于连续控制动作。而两者在控制动作的选择原则上也有明显不同，DQN是根据已有的值函数选择相应更优的动作，而DDPG是先根据随机的策略函数选择动作，再利用评论家网络对动作进行评价，从而对演员网络的控制策略进行梯度修正。

因此，亟需一种新的算法来优化管理混合动力汽车(HEV)能量。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度强化学习A3C算法的HEV能量管理方法，通过分布式的学习思路，分别设置四个环境-智能体的学习模块，并且将各个学习环境设定为不同类型的标准工况，利用单独的环境-智能体模块学习某一类工况下的最优能量管理策略，从而建立四个学习模块就实现对所有类型工况更加全面的学习效果，最终利用全局神经网络汇总每个环境-智能体模块所学到的能量管理策略，在保证燃油经济性的条件下实现对所有随机工况的自适应能力。

为达到上述目的，本发明提供如下技术方案：

一种基于深度强化学习A3C算法的HEV能量管理方法，包括以下步骤：

S1：基于车辆行驶标准工况数据，按照工况的特征参数划分标准工况；

S2：建立混合动力汽车的动力学模型，计算整车的需求功率；

S3：根据能量管理策略确定需要的状态变量、动作变量以及奖励函数；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆大学，未经重庆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010657917.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统
B60W40-00 不与某一特定子系统的控制相关联的道路车辆驾驶控制系统的驾驶参数的判断或计算
B60W40-02 .涉及周围的路况
B60W40-08 .涉及驾驶员或乘客的
B60W40-10 .涉及车辆的运动
B60W40-12 .涉及车辆自身的参数
B60W40-13 ..载荷或重量`

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习A3C算法的HEV能量管理方法有效

专利文献下载