[发明专利]一种基于深度期望Q-学习的电网能量管理方法及系统有效
申请号: | 202011418334.2 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112614009B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 陈振;韩晓言;丁理杰;魏巍 | 申请(专利权)人: | 国网四川省电力公司电力科学研究院 |
主分类号: | G06Q50/06 | 分类号: | G06Q50/06;G06N3/047;G06N3/08;G06N7/00;H02J3/00;H02J3/38 |
代理公司: | 成都行之专利代理有限公司 51220 | 代理人: | 李朝虎 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 期望 学习 电网 能量 管理 方法 系统 | ||
1.一种基于深度期望Q-学习的电网能量管理方法,其特征在于,包括以下步骤:
S1.基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;
基于贝叶斯神经网络对预测点光伏出力不确定性建模具体过程为:
S11.读取预测点决定性因素、持续性影响因素、突发性影响因素的信息并进行数据预处理;
S12.将预处理后的预测点决定性因素数据、持续性影响因素数据输入贝叶斯神经网络的深度全连接层,将预处理后的突发性影响因素数据输入贝叶斯神经网络的概率层进行建模;
S13.经过多次模型训练后得到预测点的光伏出力概率分布;
S2.将光伏出力的概率分布输入基于双-深度期望Q-学习网络算法的电网能量管理模型中得到相应的光伏发电出力策略;
S3.系统依据光伏发电出力策略运行各光伏出力设备;
基于双-深度期望Q-学习网络算法的电网能量管理模型建立过程为:
T1.仅考虑储能系统作为可控资源,以日运行成本最低为目标函数并满足微网运行约束,建立电网能量管理模型;T1中以日运行成本最低的目标函数为:日运行成本为调度周期内购电成本和储能系统运行成本之和,表示为:
式中:T为调度时段数;xt为t时段需要与主电网交换的电量,xt>0表示从主电网购电,反之向主电网卖电;cb,t表示t时段从主电网买电的价格;cg,t表示t时段向主电网卖电的价格;τt为t时段储能系统的运行成本,|·|+为取正函数;
所述微网运行约束包括:功率平衡约束条件、储能系统运行约束条件和调度周期内电池状态约束
T2.将T1中电网能量管理模型建模为马尔可夫决策过程;
马尔可夫决策过程具体建模过程包括:
考虑系统变量的多样性和必要性构建状态空间;
考虑储能系统的充放电和向电网买卖电量的动作以保证系统内部的功率平衡来构建动作空间;
将目标函数映射为奖励决策函数;
折扣率在计算时取固定值0.9;
状态转移概率表现为下一状态的光伏出力的概率;
T3.基于光伏出力的概率分布,考虑状态转移的随机过程,在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法,求解马尔可夫决策过程;
T4.设定合理参数保证神经网络学习过程收敛,训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型。
2.根据权利要求1所述的一种基于深度期望Q-学习的电网能量管理方法,其特征在于,步骤T3具体方法为:
在强化学习Q-学习算法的基础上引入经验回放机制,保存每次与环境交互得到的奖励与状态更新情况,当神经网络参数收敛后,获得近似的Q值;利用估计Q网络和目标Q网络解耦动作的选择与目标Q值计算;
在双深度Q学习网络的基础上提出双-深度期望Q-学习网络算法,将贝叶斯神经网络和深度强化学习结合起来,通过将状态转移的随机过程用贝叶斯神经网络表示,利用随机状态中Q期望值来更新Q网络。
3.根据权利要求2所述的一种基于深度期望Q-学习的电网能量管理方法,其特征在于,利用随机状态中Q期望值来更新Q网络具体过程为:
首先,在估计Q网络中选择储能系统调度策略;
然后,在目标Q网络中更新Q值;
简化模型,将概率密度函数离散化。
4.根据权利要求1所述的一种基于深度期望Q-学习的电网能量管理方法,其特征在于,T4中设定合理参数保证神经网络学习过程收敛时,需要考虑经验回放池、探索率和学习率。
5.一种基于深度期望Q-学习的电网能量管理系统,其特征在于,用于实现权利要求1-4任意一项所述的基于深度期望Q-学习的电网能量管理方法,包括:
概率分布获取装置基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;
第一建模装置仅考虑储能系统作为可控资源,以日运行成本最低为目标函数并满足微网运行约束,建立电网能量管理模型;
第二建模装置电网能量管理模型建模为马尔可夫决策过程;
求解装置考虑状态转移的随机过程,在传统无模型算法的基础上通过修改Q值的迭代规则提出双-深度期望Q-学习网络算法,求解马尔可夫决策过程;
模型训练装置设定合理参数保证神经网络学习过程收敛,训练基于双-深度期望Q-学习网络算法的神经网络得出基于双-深度期望Q-学习网络算法的电网能量管理模型;
电网能量管理系统基于双-深度期望Q-学习网络算法的电网能量管理模型得到的光伏发电出力策略控制各光伏出力设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网四川省电力公司电力科学研究院,未经国网四川省电力公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011418334.2/1.html,转载请声明来源钻瓜专利网。