[发明专利]一种基于随机森林的窃电行为的发现方法在审
申请号: | 201711260280.X | 申请日: | 2017-12-04 |
公开(公告)号: | CN107862347A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 刘晓;施亚林;张同乔;张若冰 | 申请(专利权)人: | 国网山东省电力公司济南供电公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 李圣梅 |
地址: | 250031 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 行为 发现 方法 | ||
1.一种基于随机森林的窃电行为的发现方法,其特征是,包括以下步骤:
获取电力系统用户数据并从营销系统中抽取需要判定的用户数据并进行筛选,剔除不存在窃电可能的数据;
对筛选后的原始数据进行预处理,包括:将窃电用户数据与正常用户数据进行对比,对二者用电特征的差异进行比对分析,提取出差异明显、特征鲜明的用电特征,之后构建专家样本集,并对特征进行提取操作,所述特征进行提取包括提取方差特征和提取含零百分数特征;
利用随机森林算法对预处理后的数据进行测试并计算得出最终的实验结果具体为:通过随机森林算法,对用户数据进行决策树分类,最终分类结果由训练出的决策树投票决定,以此判定用户是否有窃电行为。
2.如权利要求1所述的一种基于随机森林的窃电行为的发现方法,其特征是,所述对数据的筛选包括:从营销系统中抽取的用户数据包含各类用电类型,参考用电类型剔除不存在窃电可能的大用户的信息,同时,对于已经查实窃电或用电终端报警的用户的信息,也应当被剔除。
3.如权利要求1所述的一种基于随机森林的窃电行为的发现方法,其特征是,所述提取方差特征具体公式是:
其中:Vi是用户用电量的方差;是第i个用户第k天的用电量;是用户平均用电量;k是用户数据量的大小;
方差主要体现出了数据的波动情况,当某一用户用电数据出现大幅度的波动现象,用电量长期忽高忽低、方差较大,则该用户存在较大的窃电可能性。
4.如权利要求1所述的一种基于随机森林的窃电行为的发现方法,其特征是,所述提取含零百分数特征具体公式是:
其中:是含零百分数;Xj是第i个用户有包含j个零数据;Xi是第i个用户总的数据量;
除极特殊情况外,某用户用电量每天都为零,则该用户窃电可能性极高;若某用户除少数日期外,大多数时间用电量均为零,则有较大可能存在窃电行为;若某用户用电量断续为零,则存在一定可能有窃电行为。
5.如权利要求1所述的一种基于随机森林的窃电行为的发现方法,其特征是,所述随机森林是一个由一组决策树分类器{h(X,θk),k=1,2,…,K}组成的集成分类器,其中{θk}是服从独立同分布的随机向量,k表示随机森林中决策树的个数,在给定自变量X下,每个决策树分类器通过投票来决定最优的分类结果。
6.如权利要求5所述的一种基于随机森林的窃电行为的发现方法,其特征是,所述决策树分类器中决策树分类采用CART决策树分类方法,具体内容为:CART算法计算该特征上的每一种可能的划分方式的Gini(t)指标值,对每一个特征,找到该特征上Gini(t)指标值最小的一种作为最佳划分,再比较所有候选特征的最佳划分的Gini(t)指标值,最终拥有最小Gini(t)指标值的一个特征被选作在该节点上的分裂特征,并且根据每一个特征值创建分支,重复上述过程,在每一个非叶子节点上进一步对样本进行划分,直到达到一定的停止准则为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司济南供电公司,未经国网山东省电力公司济南供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711260280.X/1.html,转载请声明来源钻瓜专利网。