[发明专利]一种基于纳什Q学习的微电网群互动博弈策略学习进化方法在审
申请号: | 202310083666.7 | 申请日: | 2023-02-08 |
公开(公告)号: | CN116050632A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 肖浩;裴玮;彭大健;马腾飞;马丽 | 申请(专利权)人: | 中国科学院电工研究所 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;H02J3/00;G06Q50/06;G06F30/27;G06N20/00;G06F113/04 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 江亚平 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 电网 互动 博弈 策略 进化 方法 | ||
1.一种基于纳什Q学习的微电网群互动博弈策略学习进化方法,其特征在于,包括以下步骤:
步骤(1)考虑多主体利益诉求与微电网群互动约束,构建微电网群互动博弈模型,使用交替方向乘子法松弛问题为全局优化问题,求解近似均衡解;
步骤(2)基于近似均衡解,构建近似均衡解驱动的Q-Learning强化学习训练机制;构建微电网群策略强化学习的动作空间,状态空间和价值函数;
步骤(3)基于纳什均衡近似解的迁移学习方法加速强化学习训练和多微电网群互动博弈均衡解求解过程。
2.如权利要求1所述的一种基于纳什Q学习的微电网群互动博弈策略学习进化方法,其特征在于,所述的步骤(1)的具体步骤如下:
步骤(1-1)针对参与互动博弈的综合能源微电网利益目标,建立互动博弈的利益目标函数:
对于微电网群,构建如下的利益目标函数:
其中,i为综合能源微网序号,Cle,i为综合能源微网微i的负荷经济收益,mi,ni,ki为为综合能源微网微i的负荷收益系数,Pload,i(t)为综合能源微网微i在时刻t的负荷功率,Cne,i为综合能源微网微i的可再生能源上网收益,cps、cws分别为光伏和风电的上网电价的价格系数,Ppv-net,i(t)为综合能源微网微i在时刻t的光伏发电与电网交易功率,Pw-net,i(t)为综合能源微网微i在时刻t的风力发电与电网交易功率,△t为时间段长度,Cnc,i为综合能源微网微i的可再生能源运行维护成本,cpo、cwo分别为光伏和风电机组的运维成本的价格系数,Ppv,i(t)为综合能源微网微i在时刻t的光伏发电功率,Pw,i(t)为综合能源微网微i在时刻t的风力发电功率,Cgc,i为综合能源微网微i的燃机发电成本,ai,bi,ci为综合能源微网i的常规微燃机机组的成本系数,PGi,t为综合能源微网微i在时刻t的微燃机出力功率;
步骤(1-2)建立微电网群互动博弈消纳可再生能源的运行约束与设备物理约束,建立互动博弈的约束条件:
0≤Ppv-net,j(t)≤Ppv,i(t) (10)
0≤Pw-net,i(t)≤Pw,i(t) (11)
其中,SOCi(t)为综合能源微网i在时刻t的储能设备的荷电状态,ηc,ηd分别为储能设备的充电效率与放电效率,分别为储能设备在时刻t的充电功率与放电功率,Cbat为储能设备的最大容量,分别为储能设备的充电功率最大值与放电功率最大值,分别为储能设备荷电状态的最大值与最大值;
步骤(1-3)引入拉格朗日函数(12),将求解博弈的纳什均衡问题转化为求解全局最优问题:
其中,为优化目标函数的拉格朗日增广函数,xi是综合能源微网i的优化变量,是所有综合能源微网群在第k次迭代时求解得到的解集除去xi之后的集合,Ci()是综合能源微网i的总经济收益,N是综合能源微网总数,Ai是等式约束的变量前系数,b是等式约束的常数,是求解以xi变量的函数最优解集,Zi为变量xi的辅助变量,满足约束Zi-xi=0,L是以Zi为变量的的对偶函数,T是时间段的最大值,为第k次数迭代的拉格朗日乘子,ρ为惩罚系数,和分别为第k次迭代时增广拉格朗日的互残差与自残差;
步骤(1-4)使用交替方向乘子分布式优化算法求纳什近似均衡解,包括:
1)设置最大迭代次数kmax,收敛精度ξ;初始化迭代次数k,自变量辅助变量增广拉格朗日乘子和惩罚因子ρ0,其中
2)对于微电网群主体i,从各微电网群主体接收其期望售给电网的光伏发电功率Ppv-net,i和风电发电功率Pw-net,i,根据优化目标及其约束构建其分布式优化的拉格朗日函数(12),基于公式(13)依次求解微电网群各优化变量,包括负荷优化功率Pload,i和微燃机出力功率PG,i;
3)根据公式(14)构建各微电网群主体辅助变量Zi与辅助变量对应的拉格朗日函数,根据公式(15)更新辅助变量Zi;
4)根据公式(16)更新拉格朗日乘子根据公式(17)所示更新惩罚系数ρk,更新迭代次数k=k+1;
5)根据公式(18)计算变量的互残差与自残差,判断算法收敛情况,如果满足迭代终止条件的公式(19),否则返回2)重复计算,直至满足收敛条件或最大迭代次数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院电工研究所,未经中国科学院电工研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310083666.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理