[发明专利]一种基于k甚近邻的高准确率全局离群点检测算法有效
申请号: | 201510593056.7 | 申请日: | 2015-09-17 |
公开(公告)号: | CN105117485B | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 许红龙;毛睿;陆敏华;李荣华;王毅;刘刚;陆克中 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 陈健 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 近邻 准确率 全局 离群 检测 算法 | ||
本发明适用于数据挖掘领域,提供了一种全局离群点检测算法,包括步骤S1:将数据集D以分块方式进行检测;步骤S2:用数据集D的每个对象与第一个数据块的每个对象计算距离,并更新第一个数据块中每个对象的(m+k)近邻,实时计算每个对象的离群度,离群度小于阈值c的就从该数据块排除;步骤S3:处理完第一个数据块后,将第一个数据块中未被排除的对象按离群度从大到小排序,取前n个对象加入TOP n离群点,并更新阈值c;步骤S4:采用步骤S2对第i个数据块进行处理,处理完该数据块后更新TOP n离群点和阈值c;待所有数据块都处理完后输出TOP n离群点。本发明提供的算法能够增大数据集适用范围并能够提高检测准确率。
技术领域
本发明属于数据挖掘技术领域,尤其涉及一种基于k甚近邻的高准确率全局离群点检测算法。
背景技术
离群点也称异常点、异常对象,现在学术界最有影响的定义是Hawkins提出的定义“离群点是数据集中与众不同的数据点,其表现与其它点如此不同,以至于使人怀疑这些数据并非随机的偏差,而是由另外一种完全不同的机制所产生的”。除此之外,每一类离群检测算法都给出相应的离群点定义。离群点检测也称为异常检测、偏差检测或离群点挖掘,它就是按照一定的算法把数据集中的离群点检测出来,例如检测出TOP n离群点,或者所有符合要求的离群点。换言之,离群点检测就是挖掘海量数据中极少数与主流数据显著不同的点。
基于距离的离群检测算法具有通用性。它不需要用户具有相关领域知识,也不需要假定数据集满足任何特定概率分布模型。自1998年Knorr和Ng首先提出基于距离的离群点定义之后,学者们纷纷提出各种各样的离群点定义及相应的检测算法。其中最为常用的定义共有三个:及
来源于Knorr和Ng提出的定义DB(p,D)——数据集T中的对象O是一个离群点,当数据集T中至少有P部分对象与O的距离大于D。该定义等价为意为与对象O的距离小于R的对象不多于k个,显然这样的定义更加形象直观。及DB(p,D)都是二元化定义,一个对象要么是离群点,要么是正常点。
是Ramaswamy等人于2000年提出的定义。该定义以对象O与其第k近邻的距离值作为离群度,因此能够排序得出TOP-n离群点,在一定程度上避免了二元化定义精度较差的问题。
是Angiulli等人于2002年提出的定义。该定义与较为相似,它以对象O与其前k近邻的距离之平均值作为离群度,在的基础上进一步提高了精确度,因而成为离群检测算法研究上应用最广泛的定义。
现有的基于距离的三个最常用的离群点定义中,一般认为具有最高的检测准确率,但仍然不够理想,适用数据集也有局限性。
发明内容
本发明所要解决的技术问题在于提供一种能够增大数据集适用范围并能够提高检测准确率的全局离群点检测算法。
本发明提供了一种基于k甚近邻的高准确率全局离群点检测算法,包含以下步骤:
步骤S1:将数据集D以分块方式进行检测,被检测的每一块数据称为一个数据块,数据块的每个对象与其(m+k)近邻距离都初始化为最大值;
步骤S2:用数据集D的每个对象与第一个数据块的每个对象计算距离,并更新第一个数据块中每个对象的(m+k)近邻,实时计算每个对象的离群度,近邻数量小于m+k个时,离群度置为无穷大,离群度小于初始阈值c的就从该数据块排除;所述每个对象的离群度为该对象与其第m+1至m+k近邻的距离之和;
步骤S3:处理完第一个数据块后,将第一个数据块中未被排除的对象按离群度从大到小排序,取前n个对象加入TOP n离群点,并更新阈值c;
步骤S4:用数据集D的每个对象与第二个数据块的每个对象计算距离,并更新第二个数据块中每个对象的(m+k)近邻,实时计算每个对象的离群度,近邻数量小于m+k个时,离群度置为无穷大,离群度小于阈值c的就从该数据块排除;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510593056.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:平开窗的竖边框及转换框组件型材
- 下一篇:本体驱动的海量数据事件决策方法