[发明专利]基于深度确定策略梯度强化学习的电力系统无功优化方法有效
申请号: | 201910793475.3 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110535146B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 徐英;杨丰毓;钱敏慧;陈宁;赵大伟;张伟 | 申请(专利权)人: | 哈尔滨工业大学;中国电力科学研究院有限公司 |
主分类号: | H02J3/18 | 分类号: | H02J3/18 |
代理公司: | 哈尔滨市哈科专利事务所有限责任公司 23101 | 代理人: | 吴振刚 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 确定 策略 梯度 强化 学习 电力系统 无功 优化 方法 | ||
1.一种基于深度确定策略梯度强化学习的电力系统无功优化方法,其特征在于,方法步骤如下:
步骤一:利用电力系统无功优化计算中用到的物理量来刻画深度强化学习中的各变量,从而达到深度强化学习算法应用于电力系统无功优化的目的:
其中,Ploss为有功网络损耗;k变压器变比;nl为网络总支路数;Gk(i,j)为支路i–j的电导;Ui、Uj分别为节点i、j的电压;ωi、ωj分别为节点i、j的相角;f为电力系统无功优化目的;
步骤二:电力系统的广域测量系统实时获得电力系统各节点的功率、相位、功角、电压幅值的信息;电力系统的监视控制/数据采集系统获得电力系统的实时信息,包括地理信息、系统运行状态的信息;利用这两个系统动态地采集电力系统的数据信息,包括每个节点的电压、电力系统的拓扑信息、各节点的出力和负荷,再结合电力系统的结构参数数据,将这些数据送入电力调度系统的无功优化子系统,作为潮流计算的备用数据和之后神经网络训练所需的数据;
步骤三:算法的初始状态量st为各母线电压节点电压,包括电压的实部和虚部,通过动作神经网络产生电力网络节点动作μ(st|θμ),包括三种类型的动作:调整发电机机端电压、节点电容器组切换以及变压器分接头设置,在生成记忆集的过程的训练中,加入遵从线性分布的探索噪声;在记忆集生成完毕之后的训练中,加入遵从高斯分布的探索噪声生成控制动作集,动作集at的生成方法表述为:
其中,η为探索噪声;U(0,1)为最小值为0,最大值为1的均匀分布;N(0,1)为均值为0,方差为1的正态分布;n为训练次数;C为记忆集大小;所述的动作神经网络由在线动作网络和目标动作网络组成,且两个动作网络的结构完全相同;
步骤四:将at数据进行处理,处理流程如下:
由于在电力系统无功优化的过程中,对发电机机端电压、变压器抽头设置、节点电容器组容量均存在不等式约束,需要对动作值进行限制:
式中,atmin和atmax分别为动作值的限制最小值和限制最大值;
在实际电力系统中,发电机、节点电容器组和变压器抽头,它们的调整动作都是离散的分级控制,而深度梯度策略算法中输出的动作是连续的,需要对动作值进行离散化处理:
式中,astep为动作的步长;a't为离散化处理后的动作值;
处理后的动作值a't直接加在进行潮流计算所需的母线数据和线路数据之中,即通过改变PV节点的电压值,PQ节点的无功负荷,以及连接线上的电压变比来改变潮流计算结果;
通过新的潮流结果得到电力系统中各节点的母线电压作为新的状态信息st+1和系统的有功网损Ploss,计算得到奖励信息:
式中,rt是奖励信号;Ploss是电力系统的有功网损;K是用于降低rt相对于Ploss灵敏度的系数,为电力系统总负荷的5%;
步骤五:算法将训练得到的状态-动作-下一个状态-奖励值(st,at,st+1,rt)存入记忆集,这四个数据分别对应电力系统中,上一时刻的节点电压,电力系统动作值,这一时刻的节点电压,以及有功网损,将其作为训练神经网络的数据集,再通过随机采样的方式抽取记忆集中的N组数据放入小批量数据集之中,也就是每次随机采样相同数目且连续的样本作为动作神经网络和估值神经网络的训练数据;所述的估值神经网络由在线估值网络和目标估值网络组成,两个估值网络结构完全相同,将其分别输入动作神经网络的目标动作网络和估值神经网络的目标估值网络,目标动作网络的输出为:μ'(st+1|θμ'),目标估值网络的输出为q't+1=Q'(st+1,μ'(st+1|θμ')|θQ'),由此得到标签函数:
yt=rt+γq't+1 (6)
式中,yt为标签值;rt为奖励信号;γ为折扣系数,取接近于1的数;
步骤六:将yt和小批量数据集中的数据作为在线估值网络的输入对其进行训练,定义网络损失函数loss为在线估值网络的输出qt=Q(st,at|θQ)和标签yt的均方差:
其中,N为小批量数据集采样的大小;
基于loss针对θQ的梯度利用亚当斯优化方法对在线估值网络参数进行优化,在线动作网络的策略梯度是利用确定性策略梯度算法中的策略梯度公式得到的:
同样基于此梯度策略,采用亚当斯优化器对在线动作网络参数进行优化,以此来进行对在线估值网络和在线动作网络的训练;
步骤七:为了维持各神经网络的稳定,需要利用软更新的方法将在线动作网络和在线估值网络的参数分别传递给目标动作网络和目标估值网络,实现网络参数的更新,以此来进行目标动作网络和目标估值网络的训练:
式中,θμ'为目标动作网络参数;θQ'为目标估值网络参数;θμ为在线动作网络参数;θQ为在线估值网络参数;τ为更新系数,取接近0的数;
步骤八:循环步骤三到步骤七,并达到最小值,完成无功优化过程;此时,由于动作神经网络的参数也不再变化,从而动作神经网络对应输出的电力系统动作值也收敛,把这个收敛后的动作值传递给相关调度人员,电网的调度人员依据这些动作值来调整机端电压、无功补偿电容器投入组数、变压器抽头设置,从而实现实际电力系统无功优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学;中国电力科学研究院有限公司,未经哈尔滨工业大学;中国电力科学研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910793475.3/1.html,转载请声明来源钻瓜专利网。