[发明专利]一种基于深度强化学习的储能系统管理方法及装置在审
申请号: | 202210251703.6 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114744651A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 陈锐;郑拓;丁凯;祝维靖;李微佳 | 申请(专利权)人: | 长园深瑞继保自动化有限公司 |
主分类号: | H02J3/28 | 分类号: | H02J3/28;H02J3/38;H02J3/46;H02J3/14;G06N3/04 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 胡明强 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 系统管理 方法 装置 | ||
1.一种基于深度强化学习的储能系统管理方法,其特征在于,所述方法包括:
建立储能系统模型;
根据所述储能系统模型设定安全约束条件;
构建符合所述安全约束条件的所述储能系统的双层状态空间,其中,所述双层状态空间包括用于表示所述储能系统的经济效益最大化与满意度最高的优化调度的第一层状态空间;以及用于表示所述储能系统的充放电控制的第二层状态空间;
构建与所述双层状态空间对应的双层动作空间并获取当所述储能系统模型收到控制指令时,所述双层状态空间因所述控制指令产生的反馈值,其中,所述双层动作空间包括用于表示系统负载的变化量的第一层动作空间;以及用于表示充放电变化量的第二层动作空间;
结合所述双层动作空间构建动作-惩罚一体函数,所述动作-惩罚一体函数用于根据所述反馈值给予所述储能系统模型正向或反向惩罚;
通过动作-惩罚一体函数推理控制策略,以获取储能系统经济效益及用户满意度最高的控制策略。
2.如权利要求1所述的方法,其特征在于,所述储能系统模型通过以下式获得:
其中,PESS为储能系统的额定功率;QESS为储能系统的额定容量;表示储能系统的充电效率,表示储能系统的放电效率;表示为储能系统在t时刻的充电状态变量;表示储能系统在t时刻的放电状态变量。
3.如权利要求2所述的方法,其特征在于,所述安全约束条件包括电池电量约束、储能系统周期性约束、储能系统充放电约束储能系统调度总功率约束和削峰填谷约束,其中,
电池电量约束以式表示,与分别表示所述储能系统荷电状态的上下限;
储能系统周期性约束以式表示,表示一个周期结束后储能系统的剩余存储电量,表示下一个运行周期开始时储能系统的初始设定电量;
储能系统充放电次数约束以式表示,Tend表示单个周期运行时间,表示储能系统的充放电激活次数,NESS表示单个运行周期内储能系统最大充放电激活次数;
储能系统调度总功率约束以式表示,表示在t时刻双层控制策略的底层总负载功率;Pmax表示储能系统所允许的最大功率;
削峰填谷约束以式Pout.t≤Fout.max表示,Pout.t表示为储能系统实时输出功率,Fout.max表示为一个循环周期内的负荷峰值。
4.如权利要求3所述的方法,其特征在于,所述第一层状态空间的状态方程为:其中,θt表示为在t时刻状态空间的实时电价,表示为在t时刻状态空间的分布式能源出力情况,T表示为系统负荷调动时间,Et-1EV表示上一时刻的电动汽车的荷电状态;
第二层状态空间的状态方程为:其中,Et-1ESS表示在t时刻第一层状态方程传递给第二层状态方程的总负荷功率。
5.如权利要求4所述的方法,其特征在于,所述第一层动作空间的动作方程为:其中,表示刚性负荷,表示时间可变负荷,Pn.tPower表示功率可变负荷,Vl.tEV表示电动汽车充电负荷;
第二层动作空间的动作方程为:
6.如权利要求5所述的方法,其特征在于,所述获取当所述储能系统模型收到控制指令时,所述双层状态空间因所述控制指令产生的反馈值包括:
利用CEEMDAN结合极限学习机从原始负荷曲线中提取分解负荷特征,并确认负荷类型,所述负荷类型包括刚性负荷、时间可变负荷、功率可变负荷和电动汽车充电负荷;
输出各个负荷类型的波形,对所述双层动作空间求解以获取反馈值。
7.如权利要求6所述的方法,其特征在于,所述输出各个负荷类型的波形,对所述双层动作空间求解以获取反馈值,包括:
通过天牛算法,对所述双层动作空间求解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长园深瑞继保自动化有限公司,未经长园深瑞继保自动化有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210251703.6/1.html,转载请声明来源钻瓜专利网。