[发明专利]一种基于串行Q学习算法的电力系统离散无功优化方法在审
申请号: | 201910721660.1 | 申请日: | 2019-08-06 |
公开(公告)号: | CN110323758A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 罗鸿轩;肖勇;金鑫;张乐平;罗奕 | 申请(专利权)人: | 南方电网科学研究院有限责任公司;中国南方电网有限责任公司 |
主分类号: | H02J3/18 | 分类号: | H02J3/18;G06F17/50 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王晓坤 |
地址: | 510663 广东省广州市萝岗区科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 控制变量 电力系统 状态变量 计算机可读存储介质 目标模型 无功优化 优化 安全稳定裕度 不等式约束 安全裕度 等式约束 连续变量 目标安全 稳定裕度 离散化 离散性 奖励 构建 小网 代理 | ||
1.一种基于串行Q学习算法的电力系统离散无功优化方法,其特征在于,包括:
根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型;
对所述控制变量中的连续变量离散化后,根据串行Q学习算法,结合奖励函数,利用N个代理分别对所述控制变量中N个单维控制变量进行优化;其中,所述奖励函数根据所述状态变量的安全裕度值设定;
依据优化后的N个单维控制变量,确定所述目标模型的最优值,从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。
2.如权利要求1所述的方法,其特征在于,所述根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型包括:
根据电力系统的控制变量X=[VG,TB,QC]、状态变量U=[VL,QG]、等式约束g(X,U)=0及不等式约束h(X,U)≤0,构建电力系统无功优化问题的目标模型构建电力系统无功优化问题的目标模型:
其中,VG为发电机机端电压,TB为有载调压变压器变比,QC为无功补偿容量;VL为节点电压,QG为发电机无功出力;g(·)=0为潮流方程;F(X,U)为网损总和Ploss;所述不等式约束包括所述控制变量和所述状态变量的上下限约束与输电线路的功率极限约束。
3.如权利要求2所述的方法,其特征在于,所述对所述控制变量中的连续变量离散化包括:
将所述发电机机端电压的可行域范围离散化为若干格子,且离散化后的发电机机端电压对应的代理每次可采取的行为为所述若干格子中的一个格子。
4.如权利要求3所述的方法,其特征在于,每个代理对每个单维控制变量进行优化的步骤包括:
S1:根据目标代理采取的当前行为,确定目标单维控制变量的当前初始值;
S2:根据所述目标单维控制变量的当前初始值与所述等式约束,确定状态变量的当前值;
S3:根据所述目标单维控制变量的当前初始值与所述状态变量当前值,确定所述电力系统的当前网损总和;
S4:判断所述状态变量的当前值是否大于等于所述状态变量的当前预设下限值且小于等于所述状态变量的当前预设上限值,若是,则根据所述当前网损总和及所述状态变量的安全裕度值确定当前奖励函数值;其中,所述状态变量的安全裕度值根据所述状态变量的当前值与所述当前预设下限值及所述当前预设上限值的距离确定;
S5:根据所述当前奖励函数值更新所述当前行为对应的值函数,以便所述目标代理根据更新后的值函数选取下一个行为;
S6:循环执行所述S1至所述S5,直至循环次数达到预设次数,完成所述目标单维控制变量的优化。
5.如权利要求4所述的方法,其特征在于,所述根据所述当前奖励函数值更新所述当前行为对应的值函数包括:
利用Qk+1(xi)=(1-α)Qk(xi)+αRk更新所述当前行为对应的值函数;
其中,Rk为所述当前奖励函数值,xi为所述当前行为,Qk(xi)为所述当前行为对应的值函数,Qk+1(xi)为更新后的值函数,α为学习速率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网科学研究院有限责任公司;中国南方电网有限责任公司,未经南方电网科学研究院有限责任公司;中国南方电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910721660.1/1.html,转载请声明来源钻瓜专利网。