[发明专利]一种数据中的异常数据点的检测方法及系统有效
申请号: | 201810114099.6 | 申请日: | 2018-02-05 |
公开(公告)号: | CN108229586B | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 王建民;宋韶旭;梅逸男 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异常数据 数据点 检测 集合 距离分布 属性集合 大数据 点检测 统计学 遍历 聚合 | ||
本发明提供一种数据中的异常数据点的检测方法及系统。方法包括:S1,对于数据中的每一数据点,根据所述数据的第一属性集合,获取所述数据点的近邻点集合;S2,根据所述数据的第二属性集合,获取所述数据点与自身的近邻点集合的归一距离分布;S3,基于所有归一距离分布,检测出所述数据中的异常数据点。本发明提供的方法及系统,通过初步确定数据点的近邻点集合后,利用统计学思想检测近邻点集合中的异常近邻点,遍历所有的数据点,将异常近邻点检测结果进行聚合操作,检测得到最终的异常数据点,提高了异常数据点的检测的精确度,且该方法的实施过程较为简便,易于在各种大数据现场执行。
技术领域
本发明涉及数据检测技术领域,更具体地,涉及一种数据中的异常数据点的检测方法及系统。
背景技术
近年来,随着信息技术的发展,各类数据如物联网数据等呈现出海量增长的趋势。如何利用如此大量的数据已经成为了学界以及工业界重点关注的问题,新颖实用的算法层出不穷,各大公司也相继推出了许多大数据分析软件。
在数据的生命周期(产生、储存、加工、使用)中,可能会因各种原因导致数据产生偏差,例如,导致数据出现不一致、不完整和不准确等异常情况。将存在异常情况的数据称为异常数据,异常数据的存在将会不可避免地影响算法以及数据分析软件得到的分析结果。而在实际中,由于数据质量问题造成的损失不容小视。
在这样的背景下,数据质量已经成为了一个重要的研究方向,将数据进行清洗得到高质量的数据是在数据分析前必不可少的流程。数据清洗可以粗略地分为异常数据检测与异常数据修复两个部分。异常数据检测是异常数据修复的重要前提,如果没有精确地检测出发生异常的数据,那么也不可能得到一个令人满意的修复结果。现有技术中检测异常数据点的思路主要是基于近邻思想,即认为正常的数据点往往会拥有更多的近邻点(即距离较近的数据点)。然而,这种方法往往只根据数据点的近邻点集合中近邻点的个数,判断该数据点是否为异常,而数据点的近邻点集合中往往存在一些异常近邻点,因此,现有技术中对于异常数据点的检测存在不精确的问题。
发明内容
本发明提供一种克服现有技术中对于异常数据点的检测不准确的问题的数据中的异常数据点的检测方法及系统。
根据本发明的一个方面,提供一种数据中的异常数据点的检测方法,包括:
S1,对于数据中的每一数据点,根据所述数据的第一属性集合,获取所述数据点的近邻点集合;
S2,根据所述数据的第二属性集合,获取所述数据点与自身的近邻点集合的归一距离分布;
S3,基于所有归一距离分布,检测出所述数据中的异常数据点。
根据本发明的另一个方面,提供一种数据中的异常数据点的检测系统,包括:
近邻点集合确定模块,对于数据中的每一数据点,根据所述数据的第一属性集合,获取所述数据点的近邻点集合;
归一距离分布确定模块,用于根据所述数据的第二属性集合,获取所述数据点与自身的近邻点集合的归一距离分布;
异常数据点确定模块,用于基于所有归一距离分布,检测出所述数据中的异常数据点。
根据本发明的再一个方面,提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。
根据本发明的又一个方面,提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述的方法。
根据本发明的还一个方面,提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810114099.6/2.html,转载请声明来源钻瓜专利网。