[发明专利]一种基于纳什Q学习的微电网群互动博弈策略学习进化方法在审

申请号：	202310083666.7	申请日：	2023-02-08
公开（公告）号：	CN116050632A	公开（公告）日：	2023-05-02
发明（设计）人：	肖浩;裴玮;彭大健;马腾飞;马丽	申请（专利权）人：	中国科学院电工研究所
主分类号：	G06Q10/04	分类号：	G06Q10/04;H02J3/00;G06Q50/06;G06F30/27;G06N20/00;G06F113/04
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	江亚平
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于学习电网互动博弈策略进化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于纳什Q学习的微电网群互动博弈策略学习进化方法，其特征在于，包括以下步骤：

步骤(1)考虑多主体利益诉求与微电网群互动约束，构建微电网群互动博弈模型，使用交替方向乘子法松弛问题为全局优化问题，求解近似均衡解；

步骤(2)基于近似均衡解，构建近似均衡解驱动的Q-Learning强化学习训练机制；构建微电网群策略强化学习的动作空间，状态空间和价值函数；

步骤(3)基于纳什均衡近似解的迁移学习方法加速强化学习训练和多微电网群互动博弈均衡解求解过程。

2.如权利要求1所述的一种基于纳什Q学习的微电网群互动博弈策略学习进化方法，其特征在于，所述的步骤(1)的具体步骤如下：

步骤(1-1)针对参与互动博弈的综合能源微电网利益目标，建立互动博弈的利益目标函数：

对于微电网群，构建如下的利益目标函数：

其中，i为综合能源微网序号，C_le,i为综合能源微网微i的负荷经济收益，m_i，n_i，k_i为为综合能源微网微i的负荷收益系数，P_load,i(t)为综合能源微网微i在时刻t的负荷功率，C_ne,i为综合能源微网微i的可再生能源上网收益，c_ps、c_ws分别为光伏和风电的上网电价的价格系数，P_pv-net,i(t)为综合能源微网微i在时刻t的光伏发电与电网交易功率，P_w-net,i(t)为综合能源微网微i在时刻t的风力发电与电网交易功率，△t为时间段长度，C_nc,i为综合能源微网微i的可再生能源运行维护成本，c_po、c_wo分别为光伏和风电机组的运维成本的价格系数，P_pv,i(t)为综合能源微网微i在时刻t的光伏发电功率，P_w,i(t)为综合能源微网微i在时刻t的风力发电功率，C_gc,i为综合能源微网微i的燃机发电成本，a_i，b_i，c_i为综合能源微网i的常规微燃机机组的成本系数，P_Gi,t为综合能源微网微i在时刻t的微燃机出力功率；

步骤(1-2)建立微电网群互动博弈消纳可再生能源的运行约束与设备物理约束，建立互动博弈的约束条件：

0≤P_pv-net，j(t)≤P_pv，i(t) (10)

0≤P_w-net，i(t)≤P_w，i(t) (11)

其中，SOC_i(t)为综合能源微网i在时刻t的储能设备的荷电状态，η_c，η_d分别为储能设备的充电效率与放电效率，分别为储能设备在时刻t的充电功率与放电功率，C_bat为储能设备的最大容量，分别为储能设备的充电功率最大值与放电功率最大值，分别为储能设备荷电状态的最大值与最大值；

步骤(1-3)引入拉格朗日函数(12)，将求解博弈的纳什均衡问题转化为求解全局最优问题：

其中，为优化目标函数的拉格朗日增广函数，x_i是综合能源微网i的优化变量，是所有综合能源微网群在第k次迭代时求解得到的解集除去x_i之后的集合，C_i()是综合能源微网i的总经济收益，N是综合能源微网总数，A_i是等式约束的变量前系数，b是等式约束的常数，是求解以x_i变量的函数最优解集，Z_i为变量x_i的辅助变量，满足约束Z_i-x_i＝0，L是以Z_i为变量的的对偶函数，T是时间段的最大值，为第k次数迭代的拉格朗日乘子，ρ为惩罚系数，和分别为第k次迭代时增广拉格朗日的互残差与自残差；

步骤(1-4)使用交替方向乘子分布式优化算法求纳什近似均衡解，包括：

1)设置最大迭代次数k_max，收敛精度ξ；初始化迭代次数k，自变量辅助变量增广拉格朗日乘子和惩罚因子ρ⁰，其中

2)对于微电网群主体i，从各微电网群主体接收其期望售给电网的光伏发电功率P_pv-net,i和风电发电功率P_w-net,i，根据优化目标及其约束构建其分布式优化的拉格朗日函数(12)，基于公式(13)依次求解微电网群各优化变量，包括负荷优化功率P_load,i和微燃机出力功率P_G,i；

3)根据公式(14)构建各微电网群主体辅助变量Z_i与辅助变量对应的拉格朗日函数，根据公式(15)更新辅助变量Z_i；

4)根据公式(16)更新拉格朗日乘子根据公式(17)所示更新惩罚系数ρ^k，更新迭代次数k＝k+1；

5)根据公式(18)计算变量的互残差与自残差，判断算法收敛情况，如果满足迭代终止条件的公式(19)，否则返回2)重复计算，直至满足收敛条件或最大迭代次数；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院电工研究所，未经中国科学院电工研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310083666.7/1.html，转载请声明来源钻瓜专利网。