[发明专利]基于孤立点检测的大数据异常值清理方法在审
申请号: | 201711238608.8 | 申请日: | 2017-12-01 |
公开(公告)号: | CN109947747A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 周峻松;徐继峰;祁建明;陈墩金 | 申请(专利权)人: | 广州明领基因科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F11/07 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510610 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 孤立点检测 孤立点 大数据 预处理 错误数据 结果数据 领域知识 数据清理 新数据源 数据源 有效地 元数据 导出 去除 存储 引入 检测 表现 | ||
本发明公开了一种基于孤立点检测的大数据异常值清理方法,所述方法包括:S1,通过JDBC接口调入待清理的数据;S2,对数据进行预处理;S3,对数据进行孤立点检测、识别及处理;S4,通过JDBC接口导出结果数据至新数据源。本发明方案引入孤立点的概念,利用数据错误往往表现为孤立点的特性,通过检测出孤立点并结合领域知识或所存储的元数据,找出相应的错误数据并去除的方法,有效地达到了数据清理的目的,提高了数据源的数据质量。
技术领域
本发明属于大数据清洗技术领域,涉及一种基于孤立点检测的大数据异常值清理方法。
背景技术
数据质量是影响数据挖掘效果的关键因素之一。为了提高被挖掘数据源的数据质量,数据清理便显得十分重要,而清理数据源中的错误数据又是数据清理中的一个重要问题。
数据错误是指数据源中记录字段的值与实际的值不相符。在数据源中经常含有一定数量的异常值,它们与数据源的其他部分不同或不一致,这样的数据常常被称为孤立点;其产生的原因可能是度量或执行错误所导致,但也可能是固有的数据变异性的结果。
由于数据错误往往表现为孤立点,故通过检测并去除数据源中的孤立点可达到数据清理的目的,提高数据源的数据质量;但并非所有的孤立点都是错误数据,因此需研究如何在检测出孤立点后还能结合领域知识或所存储的元数据,从中找出相应的错误数据。
发明内容
本发明目的在于提供一种基于孤立点检测的大数据异常值清理方法,针对数据源中的错误数据会加大数据源清理的难度,降低数据质量,影响数据挖掘效果的问题,引入孤立点的概念,利用数据错误往往表现为孤立点的特性,通过检测出孤立点并结合领域知识或所存储的元数据,找出相应的错误数据并去除的方法,有效地达到了数据清理的目的,提高了数据源的数据质量。
为解决上述技术问题,本发明采用如下的技术方案:一种基于孤立点检测的大数据异常值清理方法,所述方法包括:S1,通过JDBC接口调入待清理的数据;S2,对数据进行预处理;S3,对数据进行孤立点检测、识别及处理;S4,通过JDBC接口导出结果数据至新数据源。
进一步地,所述步骤S1中,JDBC为Java DataBase Connectivity的缩写,即Java数据库连接,该接口把数据源中需要清理的数据调入到系统中,执行数据清理。
进一步地,所述步骤S2中,数据预处理是指标准化数据记录格式,根据预定义的规则,把数据记录中的相应字段转换成同一格式。
进一步地,所述步骤S3中,使用模糊集理论来模仿人工检测异常值的方法,加以算法库、规则库及数据清理日志的辅助,完成对孤立点的相关操作。
进一步地,所述步骤S4中,JDBC将处理所得的正确数据导出至新数据库。
本发明与现有技术相比具有以下的有益效果:
本发明方案针对数据源中的错误数据会加大数据源清理的难度,降低数据质量,影响数据挖掘效果的问题,引入孤立点的概念,利用数据错误往往表现为孤立点的特性,通过检测出孤立点并结合领域知识或所存储的元数据,找出相应的错误数据并去除的方法,达到数据清理的目的,提高数据源的数据质量。
附图说明
图1是基于孤立点检测的大数据异常值清理方法的流程框图。
图2是基于孤立点检测的大数据异常值清理方法中孤立点操作部分的原理流程图。
具体实施方式
下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
参照图1,本发明的一种基于孤立点检测的大数据异常值清理方法,所述方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州明领基因科技有限公司,未经广州明领基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711238608.8/2.html,转载请声明来源钻瓜专利网。