[发明专利]基于多智能体深度强化学习的电压分布式控制方法及系统有效
申请号: | 202010581959.4 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111799808B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 吴文传;刘昊天;孙宏斌;王彬;郭庆来 | 申请(专利权)人: | 清华大学 |
主分类号: | H02J3/16 | 分类号: | H02J3/16;H02J13/00;G06F30/27;G06F113/04 |
代理公司: | 北京知联天下知识产权代理事务所(普通合伙) 11594 | 代理人: | 张陆军 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 智能 深度 强化 学习 电压 分布式 控制 方法 系统 | ||
1.基于多智能体深度强化学习的电压分布式控制方法,其特征在于,包括:
步骤1:根据被控电网整体无功电压控制目标与优化模型,制定各被控区域无功电压控制目标,并建立无功电压优化模型;
步骤2:结合优化模型与电网的实际配置情况,构建基于马尔科夫游戏的多智能体交互训练框架;
步骤3:初始化各神经网络及相关控制过程变量并下发到各控制区域;
步骤4:各区域本地控制器根据接收的策略神经网络并行执行控制步骤;
步骤5:各区域本地控制器并行执行上传样本步骤,上传量测样本到云服务器;
步骤6:云服务器并行学习各个控制器策略并下发更新后的策略到各区域控制器;
步骤7:重复执行步骤4、5、6;
所述步骤1包括:
步骤1-1:建立被控电网整体无功电压控制目标与优化模型:
其中,为电网全部节点的集合,Vj为节点j的电压幅值;Pj为节点j的有功功率输出;QGj为节点j的DG无功功率输出;QCj为节点j的SVC无功功率输出;分别为节点j的电压下限与上限;分别为节点j的SVC无功功率输出的下限与上限;SGj,PGj分别为节点j的DG装机容量与有功功率输出;
步骤1-2:拆分上述无功电压控制目标与优化模型,形成各被控区域无功电压控制目标与优化模型:
其中,为第i个区域的全部节点集合,
为第i个区域的网络输出功率;
所述步骤2包括:
步骤2-1:对应各区域系统量测,构建各区域观测变量oi,t:
其中Pi,Qi为第i个区域各节点有功、无功功率注入组成的向量;Vi为第i个区域各节点电压组成的向量;为第i个区域的网络输出有功功率和网络输出无功功率;t为控制过程的离散时间变量;
步骤2-2:对应各区域无功电压优化目标,构建各区域统一回馈变量rt:
Pj为节点j的有功功率输出,为区域i的网络输出有功功率;
步骤2-3:对应各区域无功电压优化约束,构建各区域约束回馈变量
其中[x]+=max(0,x);βi为第i个区域的协作系数,Vj(t)为t时刻节点j的电压,表示电压上限,
步骤2-4:对应可控灵活性资源无功功率,构建各区域动作变量ai,t:
ai,t=(QGi,QCi)t (1.6)
其中,QGi,QCi分别为第i个区域的DG及SVC无功功率输出向量;
所述步骤3包括:
步骤3-1:初始化各神经网络及相关控制过程变量并下发到各控制区域;
步骤3-2:初始化各区域拉格朗日乘子λi,为一标量;
步骤3-3:通过通讯网络,下发初始策略神经网络与到区域i的控制器;
步骤3-4:初始化离散时间变量t=0,两步之间的实际时间间隔为Δt;
步骤3-5:初始化策略更新周期Tu,用于每隔TuΔt时间执行一次策略更新;
步骤3-6:初始化样本上传周期Ts与样本上传比例m∈[1,Ts],用于每隔TsΔt各控制器进行一次样本上传,上传前一个上传周期中的m个样本;
步骤3-7:初始化云服务器经验库各控制器本地缓存经验库
所述步骤3-1包括:
步骤3-1-1:定义神经网络Qφi为一个输入(oi,t,ai,t)输出单个标量值的神经网络;激活函数为ReLU函数;记Qφi的网络参数为φi,对应的冻结参数为并随机初始化φi与
步骤3-1-2:定义神经网络为一个输入(oi,t,ai,t)输出单个标量值的神经网络;激活函数为ReLU函数;记的网络参数记为对应的冻结参数为随机初始化与
步骤3-1-3:定义与为两个输入oi,t输出与动作ai,t形状相同向量的神经网络,与分别具有独立的输出层,同时共享相同的神经网络输入层与隐含层;激活函数为ReLU函数;记与的全部网络参数为θi,随机初始化θi;
所述步骤4包括:
步骤4-1:从区域电网的量测装置获得量测信号,形成对应的观测变量oi,t;
步骤4-2:根据本地的策略神经网络与生成本时刻对应动作ai,t:
步骤4-3:控制器将ai,t下发至本地被控灵活性资源,如DG节点和SVC节点;
步骤4-4:将(oi,t,ai,t)储存到中;
所述步骤5包括:
步骤5-1:将中前m+1个样本上传至云服务器的经验库Di中;
步骤5-2:清空
步骤5-3:在云服务器上对本轮上传数据的前m组计算rt与
步骤5-4:如发生通讯故障,导致某区域样本未能上传,可直接忽略本次采样上传;
所述步骤6包括:
步骤6-1:从经验库Di中抽取一组经验数量为B;
步骤6-2:计算参数φi的损失函数:
其中x=(o1,…,oN)为全部区域观测值;x'为x对应的下一时刻观测值;a1,…,aN分别为区域1到区域N的动作向量;表示在中求取;yi为:
其中γ为折合系数;αi为区域i的熵最大化因子;为取到的概率值;为:
⊙表示按位相乘,o′i为区域i下一时刻的观测值;
步骤6-3:更新参数φi:
其中ρi为学习步长,表示是对变量φi求梯度;
步骤6-4:计算参数的损失函数;
其中为:
步骤6-5:更新参数
步骤6-6:计算拉格朗日函数:
其中为电压越线程度约束限值;为:
步骤6-7:更新参数θi:
步骤6-8:更新参数λi:
步骤6-9:更新冻结参数和
其中η为冻结系数;
步骤6-10:下发更新后的策略神经网络与到区域i。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010581959.4/1.html,转载请声明来源钻瓜专利网。