[发明专利]一种基于强化学习的异常用电判决系统及方法有效
申请号: | 202010649574.7 | 申请日: | 2020-07-08 |
公开(公告)号: | CN111539492B | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 陈应林;陈勉舟 | 申请(专利权)人: | 武汉格蓝若智能技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q50/06 |
代理公司: | 武汉蓝宝石专利代理事务所(特殊普通合伙) 42242 | 代理人: | 严超 |
地址: | 430000 湖北省武汉市东湖新技术开发区光*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 异常 用电 判决 系统 方法 | ||
1.一种基于强化学习的异常用电判决系统,其特征在于,所述判决系统为构建的DRQN模型,包括:记忆库、Q网络模型和target Q网络模型;
所述记忆库用于存储当前的状态、当前选择的动作、下一步的状态和当前回合的奖惩值;
所述Q网络模型以当前的状态和当前选择的动作作为输入和输出,以所述当前的状态作为判决指标确定当前回合的奖惩值;
所述target Q网络模型与所述Q网络模型结构相同,在所述Q网络模型训练达到设定次数时,将所述target Q网络模型的网络参数同步为所述Q网络模型的网络参数;所述targetQ网络模型以所述记忆库存储的下一步状态作为输入;根据所述Q网络模型和所述target Q网络模型的输出以及所述奖惩值计算损失,根据所述损失更新所述Q网络模型的网络参数;
将待测的用电概率序列输入到训练好的所述DRQN模型中,以所述当前的状态作为所述待测的用电概率序列的动态阈值,根据所述动态阈值判断用电是否异常;
所述当前的状态和下一步的状态是由5个值组成五维数组,包括四维的判决阈值和一维的判决比例;
所述四维的判决阈值分别是阈值的最大值、中位数、平均值以及设定的阈值A;所述一维的判决比例是超过所述阈值A的比例;
判断用电是否异常包括:计算所述待测的用电概率序列的最大值a1,中位数b1,平均值c1和超过阈值A的天数比例e1,与所述动态阈值的五维数组的a2,b2,c2,A和e2进行比较,得到:
output=(a1>a2)and(b1>b2)and(c1>c2)and(e1>e2);
若output为1则判定所述待测的用电概率序列属于异常用电用户,否则判定所述待测的用电概率序列为正常用户。
2.根据权利要求1所述的判决系统,其特征在于,所述动作包括:
由所述DRQN模型选择所述状态的五维数组中的两个,对选择的两个数组分别加上一个设定固定值和减去一个设定固定值。
3.根据权利要求1所述的判决系统,其特征在于,所述Q网络模型输出当前选择的动作后,环境函数输入当前的状态与当前选择的动作,输出下一步的状态。
4.根据权利要求1或3所述的判决系统,其特征在于,所述奖惩值的计算过程为:以所述当前的状态作为判决指标,计算在输入的n个样本里,有m个样本判断正确,则奖惩值r=0.1m-(n-m)。
5.根据权利要求4所述的判决系统,其特征在于,作为判决指标的所述状态为所述DRQN模型完成一个回合的完整迭代后得到的下一步状态;
每个所述回合n步,输入n个用电概率序列,每步包括:输入当前的状态,输出当前选择的动作,由环境函数得到下一步的状态;奖惩函数输入所述DRQN模型完成一个回合的完整迭代后得到的下一步的状态,输出所述奖惩值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉格蓝若智能技术有限公司,未经武汉格蓝若智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010649574.7/1.html,转载请声明来源钻瓜专利网。