[发明专利]基于分层的深度策略梯度网络的电网调控方法在审
申请号: | 202210435606.2 | 申请日: | 2022-04-24 |
公开(公告)号: | CN114707613A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 杜友田;解圣源;王晨希;郭子豪 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q50/06 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分层 深度 策略 梯度 网络 电网 调控 方法 | ||
1.一种基于分层的深度策略梯度网络的电网调控方法,其特征在于,包括:
步骤1,获取电网信息,构建状态空间和动作空间,所述状态空间和动作空间均由连续空间变量和离散空间变量组成;所述状态空间的连续空间变量包括时间、发电机发电功率和机端电压、负载功率、节点电压、线路潮流值以及电压,离散空间变量包括网络拓扑结构;所述动作空间的连续空间变量包括发电机出力调整和负载功率调整,离散空间变量包括传输线路通断状态和变电站节点内双母线与各元器件的连接拓扑结构;
步骤2,对所述动作空间进行聚类,使得每个簇的动作数目相等;
步骤3,为电网设计其状态表征向量S和动作表征向量A;
步骤4,基于分层的策略梯度网络设计电网调控模型,所述电网调控模型共有两层,每层均为独立的策略梯度网络,将状态表征向量S作为每层策略梯度网络的输入,使用策略梯度算法训练电网调控模型,进行连续选择,电网调控模型的第一层先选择动作簇,第二层再选择簇内具体动作,其中,在给定状态st后输出具体电网动作at的概率是两次选择的概率的乘积;
步骤5,基于离散化的电网运行数据集仿真电网运行环境,将所述电网调控模型和仿真电网运行环境进行交互,电网调控模型从仿真电网运行环境中得到当前状态和要执行的最终动作,将要执行的最终动作交由仿真电网运行环境执行,实现电网调控的目的,并反馈即时奖励,将电网的状态、电网调控的动作以及反馈得到的奖励组合,收集经验样本数据;
步骤6,根据收集经验样本数据和返回的奖励估计动作的价值,并更新网络参数,然后返回执行步骤5,实现对仿真电网运行环境不断交互,并达到训练电网调控模型的目的。
2.根据权利要求1所述基于分层的深度策略梯度网络的电网调控方法,其特征在于,所述步骤2中,引入仿真环境探索机制对动作空间进行降维处理,经过降维后的动作空间中,将每个电网动作在电网环境执行前后的电网的状态信息,即电网中每条电力传输线中的电流值的大小,作为表示该电网动作的特征向量,然后对此进行聚类操作。
3.根据权利要求2所述基于分层的深度策略梯度网络的电网调控方法,其特征在于,所述聚类采用K-means算法,首先随机选择动作空间中的k个电网动作的特征向量作为初始的聚类中心,对其余的特征向量则计算它们与各聚类中心的距离并就近归类,然后通过迭代的方式,多次更新聚类中心,直至获取到每类数目相等的聚类结果,即同一个簇中的对象相似度高,不同簇中的对象相似度低。
4.根据权利要求1所述基于分层的深度策略梯度网络的电网调控方法,其特征在于,所述步骤3,利用编号将电网中包含的元器件和传输线路进行表示和对应,所述元器件包括变电站节点、发电机节点和负载节点;然后将元器件和传输线路包含的变量构成一维的状态表征向量S;
将发电机出力功率调整和负载功率调整的具体增/减功率值放入一维动作向量S对应编号位置,通过1、0代表传输线路通/断状态切换动作,通过0、1、2代表变电站节点内各元器件与双母线的连接状态,0表示该元器件与所有母线断开,1代表该元器件与1号母线连接,2代表该元器件与2号母线连接,得到动作表征向量A。
5.根据权利要求1所述基于分层的深度策略梯度网络的电网调控方法,其特征在于,所述步骤4,以当前状态表征向量St作为每层策略梯度网络的输入,初始化策略θ=(θ1,θ2),θ1和θ2分别表示第一层策略梯度网络和第二层策略梯度网络的目标策略的参数向量,pt表示在时间步t从第一层策略梯度网络的状态输入到第二层策略梯度网络的目标策略输出的路径,该路径由两次选择组成,第一层策略梯度网络每个选择均表示为1到c1之间的整数,第二层策略梯度网络表示1到c2之间的整数,c1是动作聚类后簇的个数,c2是簇内具体动作的个数。
6.根据权利要求1所述基于分层的深度策略梯度网络的电网调控方法,其特征在于,所述步骤5中,根据得到的奖励计算
并计算策略函数:
更新网络参数,对网络的更新损失函数如下:
式中,表示当前状态表征向量St下对策略网络输出后选择的电网动作At的价值估计,其中γ为折扣奖励系数,γ∈[0,1],N是一次序列的长度,即采样次数;θ为策略梯度网络参数,表示当前输入时对策略网络的输出求梯度,st、at表示第t时刻下的状态表征向量、动作表征向量,πθ′(At|St)为当前状态表征向量st下策略网络的输出,表示当前状态表征向量st下对策略网络输出后选择的at的价值估计;
更新策略梯度网络的网络参数,如下式:
θ=θ+αΔθ
式中,θ为策略梯度网络参数,α为更新步长即学习率,且α∈[0,1]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210435606.2/1.html,转载请声明来源钻瓜专利网。