[发明专利]一种基于混合学习的分布式能源优化调度方法及装置有效
申请号: | 202310713665.6 | 申请日: | 2023-06-16 |
公开(公告)号: | CN116451880B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 刘念;孙浩男;谭露 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/0631;G06Q50/06;G06N5/01 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 万慧华 |
地址: | 102200 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 学习 分布式 能源 优化 调度 方法 装置 | ||
1.一种基于混合学习的分布式能源优化调度方法,其特征在于,所述方法应用于分布式能源系统,所述分布式能源系统包括多个微电网,每个所述微电网内设置有边缘节点、多个终端用户和多个分布式电源,每个所述终端用户对应一个光伏产消者,所述方法包括:
根据分布式能源系统中所有微电网的联合状态,采用每个所述微电网的决策函数,确定每个所述微电网内的每个所述光伏产消者的最优动作;所述联合状态包括每个所述微电网的本地观测状态,所述本地观测状态至少包含微电网内部所有光伏产消者进行能量共享后的总净负荷值,所述决策函数基于嵌入有训练后的XGBoost模型的多智能体深度确定性策略梯度算法训练获得;
调整每个所述微电网内的每个光伏产消者的最优动作,使每个所述微电网内的每个光伏产消者的最优动作均满足设备运行约束,获得每个所述微电网内的每个光伏产消者的一次调整后的最优动作;
调整每个所述微电网内的每个光伏产消者的一次调整后的最优动作,使每个所述微电网内的每个光伏产消者的一次调整后的最优动作均满足网络运行约束,获得每个所述微电网内的每个光伏产消者的二次调整后的最优动作;
基于每个所述微电网内的每个光伏产消者的二次调整后的最优动作,对分布式能源系统进行优化调度;
所述根据分布式能源系统中所有微电网的联合状态,采用每个所述微电网的决策函数,确定每个所述微电网内的每个所述光伏产消者的最优动作,之前还包括:
获取数据集;所述数据集包括多个数据样本,每个所述数据样本中的输入向量为,每个所述数据样本中的输出向量为;其中,为第d个数据样本中的输入向量,为第d个数据样本中的输出向量,和分别为售电能激励因子和购电能激励因子,和分别为光伏产消者基准负荷和光伏出力,为光伏产消者的负荷调节量;
基于所述数据集,采用监督学习的方式对XGBoost模型进行训练,获得训练后的XGBoost模型;
将训练后的XGBoost模型嵌入至多智能体深度确定性策略梯度算法中,采用训练后的XGBoost模型,确定每个微电网中每个光伏产消者的负荷调节量,进而确定每个微电网内部所有光伏产消者进行能量共享后的总净负荷值,并将每个微电网内部所有光伏产消者进行能量共享后的总净负荷值添加至用于确定决策函数的本地观测向量中;
采用嵌入有训练后的XGBoost模型的多智能体深度确定性策略梯度算法训练获得决策函数;
所述基于所述数据集,采用监督学习的方式对XGBoost模型进行训练,获得训练后的XGBoost模型,具体包括:
基于所述数据集采用递增的训练方法对XGBoost模型进行迭代训练,直到目标损失函数的值小于预设阈值;所述目标损失函数为:
;
其中,为目标损失函数,表示数据样本上的模型量化误差,表示避免模型过拟合的模型复杂度正则化,表示第轮迭代的预测结果,为第
所述采用嵌入有训练后的XGBoost模型的多智能体深度确定性策略梯度算法训练获得决策函数,具体为:
将每个微电网视为一个智能体,包括多个微电网的分布式能源系统的策略集表示为:;
其中,表示策略集,、和分别表示第1个、第i个和第N个微电网的策略函数,N表示微电网的数量;
对于每个所述微电网,根据t时刻的本地观测状态,基于在线策略网络和目标策略网络,决策出t时刻的动作;其中,为
根据决策出的每个所述微电网t时刻的动作,基于在线评价网络输出每个微电网的在线评价函数值,基于目标评价网络输出目标评价函数值;
基于所述每个微电网的在线评价函数值和目标评价函数值,更新每个微电网的在线策略网络的参数和在线评价网络的参数,并更新目标策略网络的参数和目标评价网络的参数;
返回对于每个所述微电网,根据t时刻的本地观测状态,基于在线策略网络,决策出t时刻的动作的步骤,直到预设迭代次数,输出参数更新后的每个微电网的在线策略网络分别作为每个微电网的决策函数;
更新在线评价网络的参数的公式为:
;
其中,和分别为更新前在线评价网络的参数和更新后在线评价网络的参数,是预设的价值网络学习率,为数据样本的数量,为在线评价网络的输出,为第个数据样本中t时刻第i个微电网的本地观测状态向量,为第个数据样本中第i个微电网在线策略网络决策出的t时刻的动作,为第个数据样本中除第i个微电网外其余微电网决策出的t时刻的动作,为在线评价函数的梯度,为第个数据样本的经验估计回报;
更新在线策略网络的参数的公式为:
;
其中,和分别为更新后和更新前的在线策略网络的参数,为预设的策略网络学习率,为采样策略梯度函数;
更新目标评价网络的参数的公式为:
;
其中,和分别为更新后和更新前的目标评价网络的参数,为预设的更新参数;
更新目标策略网络的参数的公式为:
;
其中,和分别为更新后和更新前的目标策略网络的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310713665.6/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理