[发明专利]一种基于强化学习的异常用电判决系统及方法有效

申请号：	202010649574.7	申请日：	2020-07-08
公开（公告）号：	CN111539492B	公开（公告）日：	2020-11-20
发明（设计）人：	陈应林;陈勉舟	申请（专利权）人：	武汉格蓝若智能技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06Q50/06
代理公司：	武汉蓝宝石专利代理事务所(特殊普通合伙) 42242	代理人：	严超
地址：	430000 湖北省武汉市东湖新技术开发区光***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习异常用电判决系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的异常用电判决系统，其特征在于，所述判决系统为构建的DRQN模型，包括：记忆库、Q网络模型和target Q网络模型；

所述记忆库用于存储当前的状态、当前选择的动作、下一步的状态和当前回合的奖惩值；

所述Q网络模型以当前的状态和当前选择的动作作为输入和输出，以所述当前的状态作为判决指标确定当前回合的奖惩值；

所述target Q网络模型与所述Q网络模型结构相同，在所述Q网络模型训练达到设定次数时，将所述target Q网络模型的网络参数同步为所述Q网络模型的网络参数；所述targetQ网络模型以所述记忆库存储的下一步状态作为输入；根据所述Q网络模型和所述target Q网络模型的输出以及所述奖惩值计算损失，根据所述损失更新所述Q网络模型的网络参数；

将待测的用电概率序列输入到训练好的所述DRQN模型中，以所述当前的状态作为所述待测的用电概率序列的动态阈值，根据所述动态阈值判断用电是否异常；

所述当前的状态和下一步的状态是由5个值组成五维数组，包括四维的判决阈值和一维的判决比例；

所述四维的判决阈值分别是阈值的最大值、中位数、平均值以及设定的阈值A；所述一维的判决比例是超过所述阈值A的比例；

判断用电是否异常包括：计算所述待测的用电概率序列的最大值a1，中位数b1，平均值c1和超过阈值A的天数比例e1，与所述动态阈值的五维数组的a2，b2，c2，A和e2进行比较，得到：

output＝(a1＞a2)and(b1＞b2)and(c1＞c2)and(e1＞e2)；

若output为1则判定所述待测的用电概率序列属于异常用电用户，否则判定所述待测的用电概率序列为正常用户。

2.根据权利要求1所述的判决系统，其特征在于，所述动作包括：

由所述DRQN模型选择所述状态的五维数组中的两个，对选择的两个数组分别加上一个设定固定值和减去一个设定固定值。

3.根据权利要求1所述的判决系统，其特征在于，所述Q网络模型输出当前选择的动作后，环境函数输入当前的状态与当前选择的动作，输出下一步的状态。

4.根据权利要求1或3所述的判决系统，其特征在于，所述奖惩值的计算过程为：以所述当前的状态作为判决指标，计算在输入的n个样本里，有m个样本判断正确，则奖惩值r＝0.1m-(n-m)。

5.根据权利要求4所述的判决系统，其特征在于，作为判决指标的所述状态为所述DRQN模型完成一个回合的完整迭代后得到的下一步状态；

每个所述回合n步，输入n个用电概率序列，每步包括：输入当前的状态，输出当前选择的动作，由环境函数得到下一步的状态；奖惩函数输入所述DRQN模型完成一个回合的完整迭代后得到的下一步的状态，输出所述奖惩值。