[发明专利]一种基于主从博弈策略的虚拟电厂优化调度方法在审

专利信息
申请号: 201910238444.1 申请日: 2019-03-27
公开(公告)号: CN109902884A 公开(公告)日: 2019-06-18
发明(设计)人: 吴红斌;刘鑫;李诗伟;林雪杉 申请(专利权)人: 合肥工业大学
主分类号: G06Q10/04 分类号: G06Q10/04;G06Q10/06;G06Q50/06
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230009 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于主从博弈策略的虚拟电厂优化调度方法,其步骤包括:1分析及构建含多负荷类型的虚拟电厂模型;2基于现有的电力市场交易机制建立虚拟电厂交易模型;3建立考虑不确定性因素的风险成本模型;4采用主从博弈策略对虚拟电厂进行优化调度;5通过强化学习算法对优化调度模型进行求解。本发明考虑了虚拟电厂中分布式能源出力的波动性和负荷预测的不确定性,构建了虚拟电厂在电力市场中的经济调度模型,采用主从博弈策略和强化学习算法优化求解,从而达到提高虚拟电厂的生产效益、降低负荷购电成本的目的。
搜索关键词: 虚拟 电厂 博弈 主从 优化调度 强化学习算法 构建 不确定性因素 电力市场交易 优化调度模型 分布式能源 不确定性 电力市场 风险成本 负荷类型 负荷预测 机制建立 交易模型 经济调度 优化求解 波动性 电成本 求解 出力 分析 生产
【主权项】:
1.一种基于主从博弈策略的虚拟电厂优化调度方法,所述虚拟电厂是由光伏电站、储能系统和电动汽车聚合商组成,其特征是,所述虚拟电厂优化调度的方法是按如下步骤进行:步骤1、分析及构建含多负荷类型的虚拟电厂模型:步骤1.1、设定光伏的概率密度函数为Beta分布,根据历史气象数据中各时段平均光照强度计算Beta分布的参数;并利用蒙特卡洛抽样随机产生光伏电站出力数据;步骤1.2、采用硫酸铁锂电池作为储能单元,并构建储能系统的经济模型;步骤1.3、根据电动汽车接入配电网的时刻表构建电动汽车的数学模型;步骤1.4、根据负荷的重要程度,将用户L分为一级用户L1和二级用户L2,并根据负荷的可调度情况,将一级用户L1和二级用户L2中的负荷分为传统负荷和可调度负荷;步骤2、基于电力市场交易机制,利用式(1)建立虚拟电厂交易模型:式(1)中:表示t时刻虚拟电厂在日前电力市场DAM中的收益;ks表示虚拟电厂的备用容量;PtVPP为t时刻虚拟电厂VPP的发电功率;分别为t时刻虚拟电厂在日前电力市场DAM中的售电价格和购电价格;步骤3、建立考虑不确定性因素的风险成本模型:步骤3.1、采用蒙特卡洛模拟产生多个出力场景并计算期望值,从而将光伏出力及负荷需求的不确定性转化为确定性问题;步骤3.2、利用式(2)得到t时刻虚拟电厂的风险成本Rt式(2)中:为t时刻电动汽车EV的充放电电价;为t时刻电动汽车EV电价的调整量;PtEV为t时刻电动汽车EV的输出功率;ΔPtEV为t时刻电动汽车EV输出功率的调整量;分别为t时刻虚拟电厂在实时电力市场的售电价格与购电价格;PtRT+和PtRT‑分别为t时刻虚拟电厂在实时电力市场中的多投功率和少投功率;步骤3.3、确定所述虚拟电厂风险成本模型的约束条件:步骤3.3.1、利用式(3)建立功率平衡约束:式(3)中:PtPV代表t时刻光伏出力实际值;代表t时刻光伏出力预测值;PtL代表t时刻负荷需求实际值;代表t时刻负荷需求预测值;ΔPtEV为t时刻电动汽车聚合商的调度电量;步骤3.3.2、利用式(4)‑式(6)建立电动汽车约束:式(4)‑式(6)中:为t时刻电动汽车聚合商的最小输出功率和最大输出功率;为t时刻电动汽车聚合商的电池容量;分别表示t时刻电动汽车聚合商SOC的上限和下限;ηEV代表电动汽车EV充放电效率;QEV代表电动汽车EV的电池总容量;ΔT为时间常数;步骤3.3.3、利用式(7)和式(8)建立实时电力市场交易约束:PtRT‑PtRT+=0       (8)式(7)中:分别为t时刻虚拟电厂在实时电力市场中交易功率的最小值和最大值;步骤3.3.4、利用式(9)‑式(11)建立电价约束:式(9)‑式(11)中:分别为t时刻实时电力市场中购电价格的下限和售电价格的上限;分别为t时刻电动汽车EV放电价格的下限和充电价格的上限;步骤4、采用主从博弈策略对虚拟电厂进行优化调度:步骤4.1、构建虚拟电厂经济收益模型及其约束条件:步骤4.1.1、利用式(12)构建虚拟电厂经济收益模型G:式(12)中,为t时刻电动汽车购电成本,并由式(13)获得;为t时刻一级用户和二级用户的购电成本之和,并由式(14)获得;为t时刻储能系统ES损耗成本;为t时刻光伏PV发电成本;式(13)中:分别表示t时刻电动汽车聚合商的售电价格和购电价格;式(14)中:分别为t时刻一级用户L1和二级用户L2中的柔性负荷电价;PtL1和PtL2为t时刻一级用户L1和二级用户L2中的柔性负荷功率;为t时刻一级用户L1和二级用户L2中的传统负荷电价;PtL1和PtL2为t时刻一级用户L1和二级用户L2中的传统负荷功率;步骤4.1.2、利用式(15)构建功率平衡约束:(1±ks)PtVPP=PtPV+PtES‑PtEV‑PtL1‑PtL2‑PtL1‑PtL2     (15)步骤4.1.3、利用式(16)‑式(18)构建储能系统约束:式(16)‑式(18)中:分别代表t时刻储能系统ES充放电功率的上限和下限;为t时刻储能系统的SOC容量;分别为储能系统SOC的上限和下限;ηES代表储能ES的充放电效率;QES代表储能系统ES的电池总容量;步骤4.2、构建用户购电成本模型及其约束条件:步骤4.2.1、利用式(19)建立用户购电成本模型C:式(19)中,为电动汽车EV损耗成本,并由式(20)获得:式(20)中:αEV表示电动汽车电池的损耗成本系数;步骤4.2.2、利用式(21)和式(22)建立电动汽车约束:步骤4.2.2、利用式(23)‑式(26)建立用户功率约束:式(23)‑式(26)中:分别为t时刻一级用户L1中柔性负荷功率的最小值和最大值;分别为t时刻二级用户L2中柔性负荷功率的最小值和最大值;PtL1,st和PtL2,st分别为t时刻一级用户L1和二级用户L2柔性负荷的标准值;K为时间常数;步骤4.3、采用主从博弈策略处理虚拟电厂与负荷之间主从阶梯结构的动态博弈结构:步骤4.3.1、以虚拟电厂经济收益最大为主从博弈上层优化目标,得到如式(27)所示的数学表达式:式(27)中:表示在第k+1次迭代过程中虚拟电厂中不同负荷的电价信息,其中表示虚拟电厂中第n个负荷的电价信息;为在第k次迭代过程中不同负荷购电量的一个已知解;以用户购电成本最小为主从博弈下层优化目标,得到如式(28)所示的数学表达式示:式(28)中:表示在第k+1次迭代过程中虚拟电厂中不同负荷的购电量,其中Pn表示虚拟电厂中内部第n个负荷的购电量;为在第k+1次迭代过程中不同负荷电价信息的一个已知解;步骤4.3.2、初始化k=1,根据光伏出力预测值和负荷需求预测值,设置的初始值;步骤4.3.3、通过式(27)得到电价信息Xk+1;并令Xk+1赋值给步骤4.3.4、通过式(28)得到购电量Pk+1;步骤4.3.5、判断Xk+1和Pk+1的值是否均趋近于收敛,若收敛,则执行步骤5;否则,令k+1赋值给k,返回步骤4.3.3执行,直至达到收敛;步骤5、通过强化学习算法对主从博弈优化调度模型进行求解:步骤5.1、由先前经验得到Q矩阵并进行初始化:线下学习阶段将Q矩阵中各元素(S,A)的初始值均设置为0;其中,S为学习主体的状态变量,A为学习主体的动作变量;线上学习之前将Q矩阵中各元素(S,A)的初始值设置为线下学习后保留的可行值;步骤5.2、利用式(29)将连续的状态变量S和动作变量A离散化并划分为M个区间,得到第z个学习主体的区间长度ΔPz式(29)中:分别为学习主体的动作上限和动作下限;Mz表示第z个学习主体的区间个数;步骤5.3、定义当前迭代次数为g,并初始化g=1;根据光伏出力预测值和负荷需求预测值确定上层博弈模型的初始状态变量S1,g;步骤5.4、根据当前第g次迭代学习主体所属的运行状态,结合式(27)选择第g次迭代的上层博弈模型中概率最优的行动变量A1,g=(g,XEV,XL1,XL2,PES,ΔXEV,ΔPEV),将A1,g赋值给S2,g,其中,S2,g为第g次迭代中博弈下层模型的状态变量;步骤5.5、结合式(28)选择第g次迭代的下层博弈模型中概率最优的行动变量A2,g=(g,PEV,PL1,PL2);将A2,g赋值给S1,g;步骤5.6、通过式(4)‑式(11)以及式(13)‑式(26)校验状态变量和行动变量,并剔除不满足约束条件的状态动作组合;步骤5.7、通过式(30)和式(31)计算Q值的大小;式(30)和式(31)中:Qi(S,a1,a2,…,aN)为第i个学习主体在状态S下执行动作a1,a2,…,aN后的Q值;S和S′分别为当前状态和动作后的状态;Sv为状态空间集;Ri为第i个学习主体由状态S转移到状态S′后得到的奖励函数;γ为折扣因子,且0<γ<1;p(S′|S,a1,a2,…,aN)为在状态S下动作a1,a2,…,aN发生后转移到状态S′的概率;αg为第g次迭代的学习因子;为第i个学习主体的值函数的第g+1次迭代值;为第i个学习主体的奖励函数的第g次迭代值;i=1,2,…,N,N为强化学习主体的数量;σN(S′)主为第N个学习主体由状态S变为S′的动作变量;[σ1(S′),σ2(S′),…σN(S′)]为所有学习主体的一种混合动作情况;步骤5.8通过式(13)‑式(26)计算各学习主体奖励值的大小,同时对动作后的状态S′进行预测;步骤5.9根据动作后的状态S′更新Q矩阵,并令状态S′赋值给S;步骤5.10判断强化学习过程是否收敛,或Q值是否趋近于收敛;若收敛,则表示Q矩阵中的值即为优化调度的方案,否则将g+1赋值给g,返回步骤5.4执行,直至达到收敛。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910238444.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top