[发明专利]一种基于逆向深度强化学习的混动系统能量管理策略有效

申请号：	202010131644.X	申请日：	2020-02-28
公开（公告）号：	CN111367172B	公开（公告）日：	2021-09-21
发明（设计）人：	李梓棋;赵克刚	申请（专利权）人：	华南理工大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	何淑珍;江裕强
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于逆向深度强化学习系统能量管理策略
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于逆向深度强化学习的混动系统能量管理策略，其特征在于，包括以下步骤：

S1：利用优化求解方法在其中一个完整工况下，计算出全局混动模式分配比和全局优化的SOC结果，并组成专家状态-动作对作为逆向强化学习的专家知识；

S2：创建奖励函数神经网络，并初始化参数；

S3：利用逆向强化学习方法，学习得到奖励函数神经网络的参数，具体包括以下步骤：

S3.1、选取一个通过随机生成得到的策略π，然后运行该策略，得到一系列状态-动作对序列ζ＝{(s_t,a_t)}，s_t表示状态-动作对中第t个状态，a_t表示状态-动作对中第t个动作，t表示状态-动作对的序号，然后通过评价神经网络计算出动作值Q^π；

S3.2、利用步骤S1中得到的专家状态-动作对，根据公式计算专家动作值其中，θ^T表示奖励函数网络的参数，μ^π表示策略的符号，E表示求数学期望，γ表示折扣率，S_t0表示专家状态-动作对中第t₀个状态；A_t0表示专家状态-动作对中第t₀步动作，而a为公式中虚指第t₀步专家知识实际执行的动作；

S3.3、以为目标函数，对参数θ进行梯度下降更新；其中，表示第一次求和到第t次，第二次求和到第i次的状态，表示第一次求和到第t次，第二次求和到第i次的动作，N表示第二次求和总次数，L表示第一次求和总次数；λ₁表示是一个用于平衡惩罚和期望的经验常数，i表示第二次求和的计数序号；若学习到的状态动作对与专家策略一致，损失函数否则

S4：创建动作神经网络、评价神经网络，并初始化各个网络的参数；所述动作神经网络包括执行网络和目标网络，所述执行网络和目标网络结构相同；所述评价神经网络包括执行网络和目标网络，所述执行网络和目标网络结构相同；

S5：在其中一个随机工况下，获取车辆交互前SOC值s；

S6：将获取到的交互前SOC值s输入到奖励函数神经网络，得到奖励值r；

S7：将获取到的交互前SOC值s输入到动作神经网络，然后经过若干隐含层的处理，所述动作神经网络输出混动模式分配比a；

S8：用步骤S7中得到的混动模式分配比a控制车辆与环境进行交互，并获取交互后SOC值s’；

S9：将所述交互前SOC值s、所述混动模式分配比a、所述奖励值r、所述交互后SOC值s’组合起来得到经验向量(s,a,r,s’)，然后将所述经验向量储存在记忆缓存器中；

S10：当所述记忆缓存器中经验向量的数量达到最大容量时，从记忆缓存器中随机抽取出设定数量的经验向量作为评价神经网络的输入，然后经过若干隐含层的处理，所述评价神经网络根据贝尔曼方程输出评价值；

S11：所述奖励函数神经网络、动作神经网络、评价神经网络计算各自的权值梯度，然后通过反向传播更新执行所述奖励函数神经网络、所述动作神经网络的执行网络和所述评价的神经网络执行网络的参数；

S12：将动作神经网络的执行网络和所述评价神经网络的执行网络的参数，使用softreplacement规则对所述动作神经网络的目标网络和所述评价神经网络的目标网络的参数进行更新，完成动作神经网络、评价神经网络的参数更新；

S13：所述动作神经网络、评价神经网络参数更新后，重复步骤S5-S12，直到达到设定的最大步数或达到设定的收敛目标，此时奖励函数神经网络、动作神经网络和评价神经网络的训练结束，把各个训练完成后的神经网络的参数保存下来；

S14：使用训练好的奖励函数神经网络、动作神经网络和评价神经网络对被控对象进行控制，首先把各个训练完成后的神经网络的参数读取出来，然后获取交互前SOC值s，输入训练好的动作神经网络，输出混动系统分配比a作为控制量控制车辆。

2.根据权利要求1所述的一种基于逆向深度强化学习的混动系统能量管理策略，其特征在于，步骤S1中，所述优化求解方法包括伪谱法、动态规划法、遗传算法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010131644.X/1.html，转载请声明来源钻瓜专利网。

上一篇：模型性能优化方法、装置、设备及存储介质
下一篇：一种壳结构变形光滑粒子动力学建模方法

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于逆向深度强化学习的混动系统能量管理策略有效

专利文献下载