[发明专利]一种基于深度增强学习的可中断负荷优选方法在审
申请号: | 201911049739.0 | 申请日: | 2019-10-31 |
公开(公告)号: | CN111428903A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 李秋燕;王利利;张艺涵;田春筝;李科;郭新志;于昊正;付科源;马杰;孙义豪;全少理;郭勇;杨卓;罗潘;明威宇;李妍;王少荣 | 申请(专利权)人: | 国家电网有限公司;国网河南省电力公司经济技术研究院;华中科技大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/06;G06Q50/06;H02J3/14;G06N3/04;G06N3/08 |
代理公司: | 郑州知己知识产权代理有限公司 41132 | 代理人: | 季发军 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 增强 学习 中断 负荷 优选 方法 | ||
1.一种基于深度增强学习的可中断负荷优选方法,其特征在于,包括:
(1)通过智能电表及量测装置获取t时刻系统的观测状态;
(2)根据当前状态采取相应的需求响应控制策略,得到配电网即时回报模型;
(3)为了使长远回报最大化,需要采取最优的动作,定义所选负荷需求响应的动作估值函数Qπ(st,at),根据环境的运行状态观测值,通过迭代进行动作估值函数更新,得到最优动作估值函数的目标值
(4)由目标值与神经网络预计输出Qπ′(st,at,ω)得到神经网络偏差函数,利用小批量梯度下降法更新神经网络参数,完成增强学习;
(5)读取量测装置中数据获取k时刻实时状态sk,送入已经训练完成的神经网络中,选出最佳可中断负荷点。
2.根据权利要求1所述的基于深度增强学习的可中断负荷优选方法,其特征在于,所述步骤(1)包括:
在所有节点安装智能电表监测其功率,随机选出四个节点作为一组可中断负荷,在DER接入节点处安装量测装置获取电压数据,故系统可观测的状态st表示为其中,为t时刻各末端节点i的电压,Ptj为t时刻各可中断负荷j的功率,NU、NC分别为电压观测节点集合和所选负荷接入节点集合。
3.根据权利要求1所述的一种基于深度增强学习的可中断负荷优选方法,其特征在于,所述步骤(2)包括:
(2.1)根据当前状态st采取相应的需求响应控制策略at,按照中断或不中断两种状态考虑,相应设定t时刻的动作函数at表示为为第j个所选负荷的状态变量,只有0或1两种取值,取值为0代表中断供电,取值为1代表不中断,保证可中断负荷动作后末端节点电压在允许范围内的情况下,选出用户满意度最高的一组可中断负荷点,故建立配电网即时运行回报模型rt+1为其中所选节点j的中断控制得分和满意度得分与其对应权重wIL和wuser加权求和得到,权重的数值可由虚拟电厂根据具体的运行目标来选择;
(2.2)对于采用相邻两个采样时间负荷的状态改变量来定义中断控制得分,若状态改变,回报取负值,否则取值为0;
(2.3)对于满意度评分选取负荷动作后功率变化为参考,按照负荷动作后功率Ptj变化超过不同数值,取为不同负值。
4.根据权利要求1所述的一种基于深度增强学习的可中断负荷优选方法,其特征在于,所述步骤(3)包括:
定义IL需求响应的动作估值函数如下:
Qπ(st,at)=E[rt+1+λrt+2+λ2rt+3+…|st,at]=E[rt+1+λQπ(st+1,at+1)|st,at]
上式中,π代λ∈[0,1]表控制策略,E代表期望值,rt+1代表执行完具体动作at后的即时回报,称为折合因子,表明未来回报相对于当前回报的重要程度,最优动作估值函数的目标值由贝尔曼方程可推出为式中At+1代表在t+1时刻所有能执行动作的集合,根据环境的运行状态观测值,通过迭代进行动作估值函数更新,具体公式如下:
其中α为学习速率,满足0≤α≤1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;国网河南省电力公司经济技术研究院;华中科技大学,未经国家电网有限公司;国网河南省电力公司经济技术研究院;华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911049739.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种等离子体体征参数检测电路及可插拔模块
- 下一篇:起立辅助装置以及偏移构件
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理