[发明专利]基于多智能体深度强化学习的电压分布式控制方法及系统有效

申请号：	202010581959.4	申请日：	2020-06-23
公开（公告）号：	CN111799808B	公开（公告）日：	2022-06-28
发明（设计）人：	吴文传;刘昊天;孙宏斌;王彬;郭庆来	申请（专利权）人：	清华大学
主分类号：	H02J3/16	分类号：	H02J3/16;H02J13/00;G06F30/27;G06F113/04
代理公司：	北京知联天下知识产权代理事务所(普通合伙) 11594	代理人：	张陆军
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于智能深度强化学习电压分布式控制方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于多智能体深度强化学习的电压分布式控制方法，其特征在于，包括：

步骤1：根据被控电网整体无功电压控制目标与优化模型，制定各被控区域无功电压控制目标，并建立无功电压优化模型；

步骤2：结合优化模型与电网的实际配置情况，构建基于马尔科夫游戏的多智能体交互训练框架；

步骤3：初始化各神经网络及相关控制过程变量并下发到各控制区域；

步骤4：各区域本地控制器根据接收的策略神经网络并行执行控制步骤；

步骤5：各区域本地控制器并行执行上传样本步骤，上传量测样本到云服务器；

步骤6：云服务器并行学习各个控制器策略并下发更新后的策略到各区域控制器；

步骤7：重复执行步骤4、5、6；

所述步骤1包括：

步骤1-1：建立被控电网整体无功电压控制目标与优化模型：

其中，为电网全部节点的集合，V_j为节点j的电压幅值；P_j为节点j的有功功率输出；Q_Gj为节点j的DG无功功率输出；Q_Cj为节点j的SVC无功功率输出；分别为节点j的电压下限与上限；分别为节点j的SVC无功功率输出的下限与上限；S_Gj,P_Gj分别为节点j的DG装机容量与有功功率输出；

步骤1-2：拆分上述无功电压控制目标与优化模型，形成各被控区域无功电压控制目标与优化模型：

其中，为第i个区域的全部节点集合，

为第i个区域的网络输出功率；

所述步骤2包括：

步骤2-1：对应各区域系统量测，构建各区域观测变量o_i,t：

其中P_i,Q_i为第i个区域各节点有功、无功功率注入组成的向量；V_i为第i个区域各节点电压组成的向量；为第i个区域的网络输出有功功率和网络输出无功功率；t为控制过程的离散时间变量；

步骤2-2：对应各区域无功电压优化目标，构建各区域统一回馈变量r_t：

P_j为节点j的有功功率输出，为区域i的网络输出有功功率；

步骤2-3：对应各区域无功电压优化约束，构建各区域约束回馈变量

其中[x]₊＝max(0,x)；β_i为第i个区域的协作系数，V_j(t)为t时刻节点j的电压，表示电压上限，V为电压上限；

步骤2-4：对应可控灵活性资源无功功率，构建各区域动作变量a_i,t：

a_i,t＝(Q_Gi,Q_Ci)_t (1.6)

其中，Q_Gi,Q_Ci分别为第i个区域的DG及SVC无功功率输出向量；

所述步骤3包括：

步骤3-1：初始化各神经网络及相关控制过程变量并下发到各控制区域；

步骤3-2：初始化各区域拉格朗日乘子λ_i，为一标量；

步骤3-3：通过通讯网络，下发初始策略神经网络与到区域i的控制器；

步骤3-4：初始化离散时间变量t＝0，两步之间的实际时间间隔为Δt；

步骤3-5：初始化策略更新周期T_u，用于每隔T_uΔt时间执行一次策略更新；

步骤3-6：初始化样本上传周期T_s与样本上传比例m∈[1,T_s]，用于每隔T_sΔt各控制器进行一次样本上传，上传前一个上传周期中的m个样本；

步骤3-7：初始化云服务器经验库各控制器本地缓存经验库

所述步骤3-1包括：

步骤3-1-1：定义神经网络Q_φi为一个输入(o_i,t,a_i,t)输出单个标量值的神经网络；激活函数为ReLU函数；记Q_φi的网络参数为φ_i，对应的冻结参数为并随机初始化φ_i与

步骤3-1-2：定义神经网络为一个输入(o_i,t,a_i,t)输出单个标量值的神经网络；激活函数为ReLU函数；记的网络参数记为对应的冻结参数为随机初始化与

步骤3-1-3：定义与为两个输入o_i,t输出与动作a_i,t形状相同向量的神经网络，与分别具有独立的输出层，同时共享相同的神经网络输入层与隐含层；激活函数为ReLU函数；记与的全部网络参数为θ_i，随机初始化θ_i；

所述步骤4包括：

步骤4-1：从区域电网的量测装置获得量测信号，形成对应的观测变量o_i,t；

步骤4-2：根据本地的策略神经网络与生成本时刻对应动作a_i,t：

步骤4-3：控制器将a_i,t下发至本地被控灵活性资源，如DG节点和SVC节点；

步骤4-4：将(o_i,t,a_i,t)储存到中；

所述步骤5包括：

步骤5-1：将中前m+1个样本上传至云服务器的经验库D_i中；

步骤5-2：清空

步骤5-3：在云服务器上对本轮上传数据的前m组计算r_t与

步骤5-4：如发生通讯故障，导致某区域样本未能上传，可直接忽略本次采样上传；

所述步骤6包括：

步骤6-1：从经验库D_i中抽取一组经验数量为B；

步骤6-2：计算参数φ_i的损失函数：

其中x＝(o₁,…,o_N)为全部区域观测值；x'为x对应的下一时刻观测值；a₁,…,a_N分别为区域1到区域N的动作向量；表示在中求取；y_i为：

其中γ为折合系数；α_i为区域i的熵最大化因子；为取到的概率值；为：

⊙表示按位相乘，o′_i为区域i下一时刻的观测值；

步骤6-3：更新参数φ_i：

其中ρ_i为学习步长，表示是对变量φ_i求梯度；

步骤6-4：计算参数的损失函数；

其中为：

步骤6-5：更新参数

步骤6-6：计算拉格朗日函数：

其中为电压越线程度约束限值；为：

步骤6-7：更新参数θ_i：

步骤6-8：更新参数λ_i：

步骤6-9：更新冻结参数和

其中η为冻结系数；

步骤6-10：下发更新后的策略神经网络与到区域i。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010581959.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H02 发电、变电或配电
H02J 供电或配电的电路装置或系统；电能存储系统
H02J3-00 交流干线或交流配电网络的电路装置
H02J3-01 .减少谐波或波纹的装置
H02J3-02 .应用单个网络以不同频率同时配电的；应用单个网络对交流和直流同时配电的
H02J3-04 .用于连接以相同频率但由不同电源供电的网络
H02J3-10 .恒流供电系统
H02J3-12 .用于通过改变网络负载的一个特性来调整交流网络中的电压的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多智能体深度强化学习的电压分布式控制方法及系统有效

专利文献下载