[发明专利]一种基于双参数离群因子的离群点检测方法在审
申请号: | 201810675516.4 | 申请日: | 2018-06-27 |
公开(公告)号: | CN109063733A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 周红芳;刘虹江;张英杰;张尧;刘艺彬;奚冰彦 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 杜娟 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 双参数 离群点检测 计算数据 集合 步骤实施 降序排列 空间分布 全局距离 数据点 数据集 检测 收敛 应用 | ||
本发明公开了一种基于双参数离群因子的离群点检测方法,具体按照以下步骤实施:步骤1,给定一个空间分布数据集χ={X1,X2,...XN},计算数据集中每一个数据点Xi的局部密度,并将每个数据点Xi的局部密度按大小降序排列,形成一个密度集合;步骤2,根据步骤1的密度集合计算数据集中每一个数据点Xi的全局距离;步骤3,求取密度距离双参数离群因子DDPOS(Xi);步骤4,判断是否为离群点,若DDPOS(Xi)的值等于1或者收敛于1那么点Xi就是一个正常的数据点,否则判断其为离群点。本发明的目的是提供一种基于双参数离群因子的离群点检测方法,提出了一种新的离群因子且应用提出的离群因子对离群点进行检测时检测精度高。
技术领域
本发明属于数据挖掘方法技术领域,涉及一种基于双参数离群因子的离群点检测方法。
背景技术
信息数据在社会的发展起到越来越重要的作用,离群点检测方法研究在数据挖掘领域中已成逐渐成为与分类方法、聚类方法同等重要的一项课题。在一些特定的领域中,对于离群数据的挖掘价值要高于正常数据挖掘的价值,其目的是有效的将数据集中的异常数据识别出来,并且挖掘出数据集中有意义的潜在信息。离群数据挖掘是一种无监督的分类,保证发掘出那些与正常数据明显不同的数据点,即离群点。在其他一些文献中,离群点也称为异常点(anomaly)、冲突点(discordant observation)或者是噪声(noise)等,不同术语称谓代表着不同领域的用户看待数据角度的差异。
现有的离群点挖掘方法一般分为基于统计学习的方法、基于密度的方法、基于距离的方法和基于聚类的方法。此外,现在大部分研究的数据对象都是空间分布数据,将其他的数据转换为符合空间模型的数据同样也能够处理。
基于统计学习的方法主要是根据数据集的知识背景,应用统计技术对整体数据建立统计分析模型,主要步骤是对于输入的数据点,验证该点是否符合建立的模型,进而判断该点是否是离群点,目前该方法应用的已经很少了,因为遵循数据集的规律建立检测模型,不符合随机检测的核心内容,从未知数据集中检测出离群点才是现阶段离群点检测方法的核心任务。
基于密度的方法考察的是数据集中对象和它近邻的密度,如果一个对象的密度相对于它自己的近邻低得多,那么该对象被认为是一个离群点,基于密度的方法分为全局密度和局部密度两种,随着研究的深入,局部密度已经是现在的主流趋势。基于密度方法中有以下几种成熟的算法:LOF(Local Outlier Factor),INFLO(Improving InfluencedOutlierness),COF(Connectivity Based Outlier Factor)等,这些方法理论上是合理的,但应用于离群点检测时效果却十分不同,已有研究比较了上述几种经典的离群点检测算法,实验结果表明,INFLO方法最佳;LOF比COF略好,但是LOF的算法复杂度是最低的,而且也容易实现。
基于距离的方法考虑的是数据集中对象给定半径内的邻域,如果一个对象的距离邻域内有足够多的其它点,那么该对象被认为是一个离群点。基于距离方法中有以下几种经典的算法:DB(p,D)-outlier和LDOF(Local Distance-based Outlier Factor)等,LDOF是对DB(p,D)-outlier的拓展和改进,LDOF的算法更加优越一些。
基于聚类的方法全部都是在聚类方法的基础上进行改进的,聚类方法无需知道空间数据的分布情况,依靠单个样本在空间中按照相似度划分类别。有些优秀的聚类算法甚至能够发现数据中任意形状的簇,大大增加了检测算法的精确度和客观性。常用的聚类方法有:K-means,K-modes,DBSCAN,BRICH等。
以上几种离群点检测方法全部都是在单一的领域内发展的,单独考虑一种参数已经很难再突破离群点检测方法效率的瓶颈了。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810675516.4/2.html,转载请声明来源钻瓜专利网。