[发明专利]基于改进的离群点检测算法的计量大数据批量处理方法及系统有效
申请号: | 201911266051.8 | 申请日: | 2019-12-11 |
公开(公告)号: | CN111177128B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 卢静雅;李野;顾强;赵宝国;杨光;季浩;何泽昊;刘浩宇;李刚;吕伟嘉;张兆杰;翟术然;乔亚男;陈娟;许迪;赵紫敬;董得龙;孙虹;卫天超 | 申请(专利权)人: | 国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/2458;G06Q50/06 |
代理公司: | 天津盛理知识产权代理有限公司 12209 | 代理人: | 王来佳 |
地址: | 300384 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 离群 检测 算法 计量 数据 批量 处理 方法 系统 | ||
本发明涉及一种基于改进的离群点检测算法的计量大数据批量处理方法,其特征在于:包括如下步骤:(1)数据整理;(2)数据清洗;(3)建立数据处理模型;(4)数据存储。本发明可以为低压台区的数据分析提供合格高质量的数据,为低压台区智能电能表运行误差远程分析、用户用电行为分析等打下坚实的基础。
技术领域
本发明属于计量大数据误差计算领域,特别是一种基于改进的离群点检测算法的计量大数据批量处理方法及系统。
背景技术
2009年以来,国家电网公司大力建设用电信息采集系统,目前已实现全域4.5亿只电表运行。系统经过多年运营,积累了海量的用电数据。通过数据分析,挖掘出有效的用电信息,如电能表运行误差,用户的用电行为模式等,既可以开发出海量数据的潜力,又可以大幅降低运营成本,为电网公司提供决策支持。
然而,用电信息采集系统所采集的海量数据中,是从现实世界中采集到的大量的各种各样的数据,原始数据质量受到多样性、不确定性和复杂性的影响,使得采集到的实际数据比较凌乱,存在着缺失、异常等现象,很多情况下不符合数据挖掘工具进行知识获取的规范要求。所以需要开展误差计算数据的批量抽取与存储,以提供干净、简介、准确的数据,使挖掘过程更有效、更容易,提高挖掘效率和准确性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于改进的离群点检测算法的计量大数据批量处理方法及系统。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于改进的离群点检测算法的计量大数据批量处理方法,包括如下步骤:
(1)对参与误差计算数据的数据模型进行整理,对同一类数据进行归类汇总;
(2)对归类汇总后的字符型数据进行统一清洗、转化,对字符型数据内的特殊字符做为脏数据进行整理;
(3)根据改进的离群点检测算法建立数据处理模型,对数据计算中的临时结果、脏数据进行建模管理,保障数据的可追溯性;
(4)利用数据分级算法,建立中间结果集,并通过数据分发汇聚的能力,将数据分散并建立数据冗余参与计算,实现对数据的离散存储。
而且,所述的建立数据处理模型包括如下步骤:
(1)利用拆解算法进行数据聚合,建立数据间主外键关系,加强数据关联性;
(2)基于相对密度的离群点检测算法对聚合的数据进行检测,正常数据的离散点分布集中在一个有效区域内,该区域外部的离散点为异常数据离散点,对该分离出来的异常数据进行归集及处理;
(3)异常数据验证,通过对离群点检测的异常数据与群点最大及平均值进行估算,锁定偏差,确定数据异常情况。
而且,所述相对密度的离群点检测算法的方法为:
首先,对于每一原始数据聚合数据x,确定x的k-最近邻集合N(x,k)和密度density(x,k);之后,对于每一聚合数据x,计算其相对密度realtive density(x,k);最后,将各聚合数据的相对密度降序排列,确定相对密度大的,即明显偏离的若干聚合数据为离群点。
一种基于改进的离群点检测算法的计量大数据批量处理系统,包括
数据汇总模块,用于对参与误差计算数据的数据模型进行整理,对同一类数据进行归类汇总;
脏数据整理模块,用于对归类汇总后的字符型数据进行统一清洗、转化,对字符型数据内的特殊字符做为脏数据进行整理;
数据处理模块,用于根据改进的离群点检测算法建立数据处理模型,对数据计算中的临时结果、脏数据进行建模管理,保障数据的可追溯性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司,未经国网天津市电力公司电力科学研究院;国网天津市电力公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911266051.8/2.html,转载请声明来源钻瓜专利网。