[发明专利]基于改进的快速密度峰值聚类和LOF离群点检测算法在审
申请号: | 201810949773.2 | 申请日: | 2018-08-20 |
公开(公告)号: | CN109102028A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 黄波;黄爽 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 算法 离群点检测 聚类算法 样本数据 聚类 算法时间复杂度 聚类中心 剪枝 求解 改进 集合 验证 | ||
本发明提出基于改进的快速密度峰值聚类和LOF离群点检测算法,将快速密度峰值聚类算法和基于密度的LOF离群点检测算法进行结合,利用快速密度峰值聚类算法的计算简单性,快速求得样本数据集的聚类中心和可能的离群点集合,同时将样本数据集进行剪枝处理,从而弥补了LOF离群点检测算法求解离群点时,算法时间复杂度较高的不足;同时对快速密度峰值聚类算法求得的离群点进行再次验证,从而提高整个算法的准确性。
技术领域
本发明涉及的是一种数据挖掘领域的方法,具体是一种基于改进的快速密度峰值聚类和LOF离群点检测算法。
背景技术
近年来,随着计算机技术及数据库技术的飞速发展,数据挖掘技术得到了快速发展并广泛地应用于各个领域中。数据挖掘,即从有噪声的、大量的数据中,提取出人们事先未知却又有潜在价值的知识。离群点检测作为数据挖掘领域中的一个重要而活跃分支,它用于从数据集中找出明显偏离其他数据对象、或不满足一般对象行为特征的对象,并且挖掘出数据集中有意义的潜在信息。目前,离群点检测广泛地应用于诸多领域,如电信欺诈分析、信用卡欺诈检测、网络攻击行为检测、医疗诊断和极端天气气象预报等。
离群点检测的一个目标是从看似杂乱无章的大量数据中挖掘有价值的信息,使这些数据更好地为我们的日常生活所服务。但是现实生活中的数据往往具有成百上千的维度,并且数据量极大,这无疑给目前现有的离群点检测方法带来大难题。传统的离群点检测方法虽然在各自特定的应用领域里表现出很好效果,但在高维大数据集中却不再适用,而且算法较复杂、精度不高,使得整个离群点检测算法的时间复杂度大大提高。因此如何把离群点检测方法有效地应用于大数据、高维度数据,是目前离群点检测方法的首要目标之一。
发明内容
本发明针对上述现有技术的不足,提供了一种基于改进的快速密度峰值聚类和LOF离群点检测算法,通过将快速密度峰值聚类算法和基于密度的LOF离群点检测算法相结合,将求解得到的离群点进行再次验证,从而提高整个算法的精确性。
基于改进的快速密度峰值聚类和LOF离群点检测算法,包括快速密度峰值聚类算法和基于密度的LOF离群点检测算法两部分,其中:
所述的快速密度峰值聚类算法,求得样本数据中每个点的局部密度和距离,分别以这两个参数为横坐标轴和纵坐标轴绘制平面决策图,决策图中同时具有较大密度和较大距离值的点被认为是样本数据点的聚类中心,并将样本数据划分为几个聚类簇,而同时具有局部密度较小、距离较大的点被初步识别为样本数据点中的离群点,并获得可能的离群点集合;
所述的基于密度的LOF离群点检测算法,对快速密度峰值聚类算法中获得的离群点集中的每个离群点,计算其局部离群因子LOF,并将每个离群点的局部离群点因子值进行降序排列,离群因子LOF的值越大于1,则越可能为离群点。
进一步地,所述的快速密度峰值聚类离群点检测算法包括如下具体步骤:
步骤1:对于样本数据中的每个样本点,都需要计算每个样本点与其他样本点之间的欧式距离,并将计算结果按照升序排列;
步骤2:对于所有的样本点,需要选取一个截断距离,使得每个数据点的平均邻居个数约为样本数据点总数的1%~2%;
步骤3:对于样本数据中的每个样本点,都需要计算局部密度和距离这两个参数,这两个量都取决于样本点之间的欧式距离;
步骤4:对于样本数据中的每个样本点,计算出样本的局部密度和距离之后,分别以这两个参数为横坐标轴和纵坐标轴绘制平面决策图,并计算出一个综合考虑量:局部密度和距离的乘积;
步骤5:决策图中同时具有较大密度和较大距离值的点,即局部密度和距离的乘积较大的点,被认为是样本数据点的聚类中心,并将样本数据划分为几个聚类簇,而同时具有局部密度较小、距离较大的点被初步识别为样本数据点中的离群点,并获得可能的离群点集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810949773.2/2.html,转载请声明来源钻瓜专利网。