[发明专利]一种用于混合属性数据的模糊粗糙粒离群点检测方法在审
申请号: | 201910898517.X | 申请日: | 2019-09-23 |
公开(公告)号: | CN110659686A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 陈红梅;袁钟;李天瑞;桑彬彬;王澍 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 51245 成都盈信专利代理事务所(普通合伙) | 代理人: | 张澎 |
地址: | 611756 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模糊关系矩阵 离群点检测 混合属性 权重 近似 粗糙 模糊 表征数据 数据集 有效地 分类 | ||
本发明公开了一种用于混合属性数据的模糊粗糙粒离群点检测方法,包括如下步骤:首先对于给定的数据集,计算关于每个属性的模糊关系矩阵;其次利用每个属性的模糊关系矩阵计算去掉某个属性的模糊关系矩阵和相应的近似精度;再基于去掉不同属性之后的模糊关系矩阵和相应近似精度来计算粒离群程度以及权重;最后集成粒离群程度和权重得到基于模糊粗糙粒的离群因子,以此来表征数据对象的离群程度。本发明有效地解决了不确定和不完备数据的离群点检测问题,使得离群点检测的结果更为有效,且适用于数值、分类和混合属性数据。
技术领域
本发明涉及数据挖掘领域,尤指一种用于混合属性数据的模糊粗糙粒离群点检测方法。
背景技术
近年来,随着数据的爆炸式增长,使得我们急需功能强大和通用的工具,以便从这些数据中发现有价值的信息并将其转化成有组织的知识。这种需求就导致了数据挖掘的产生。数据挖掘的功能主要包括特征化与区分、频繁模式挖掘、分类与回归、聚类分析和离群点检测。其中,离群点检测作为数据挖掘领域重要的研究方向之一,其目的是找出其行为很不同于预期对象的过程。它在欺诈检测、医疗处理和入侵检测等许多应用中扮演着重要的角色。因此,离群点检测的研究具有重要的理论意义和实用价值。
最近,越来越多的研究者已经开始关注离群点检测,并提出了许多离群点检测方法。根据离群点检测方法所采用的具体理论或技术路线,可以把离群点检测方法大致分为:基于统计的方法、基于聚类的方法、基于深度的方法、基于距离的方法和基于密度的方法。由于离群点检测的特殊性,每种方法各有其利弊。其中,基于统计的方法假设数据集中的正常对象由一个概率分布模型产生,出现在该模型低概率区域的对象被看作是离群点。使用这种方法的一个优点是,当对数据所做的统计假设满足实际约束时,它在统计上是非常有效的。基于统计的离群点检测方法大多是针对单个属性的,然而数据很多通常都涉及多个属性,这使得它们不适合多维数据集。另外,基于统计的方法需要预先假设数据符合某种分布规律,所以不适合分布未知的情形。基于深度的方法是给每个数据对象分配一个深度值,将数据对象按分配的深度值映射到二维空间的相应层上,其中处在浅层上的数据对象更有可能是离群点。它在一定程度上弥补了统计方法不适合未知分布的缺点。然而,基于深度的方法对二维和三维空间上的数据比较有效,但对更高维度的混合数据的离群点检测效率比较低。为了避免统计方法和深度方法的问题,Knorr和Ng提出了一种基于距离的方法,它使用任意两个对象之间的距离作为异常度的度量,将远离其余大多数数据的对象视为离群点。基于距离的方法因简单易操作而被广泛应用。然而,对于高维数据,难以解决稀疏问题。由于它使用了两个全局参数,因此对参数的选择非常敏感,同时该方法未考虑局部密度的变化,因此只能挖掘全局离群点,不能挖掘局部离群点。更多的是,大多数基于距离的方法都是利用欧氏距离度量来设计的。在实际应用中,欧氏距离可能不是检测分类或混合属性数据离群点的最佳方法。为此,近年来,基于粗糙集或GrC的离群点检测算法也相继被提出。例如,Nguyen提出了一种利用多级近似推理方案检测和评估离群点的方法。Shaari等人提出了一种利用粗糙集理论中的非约简概念来检测离群点的新方法。Xue和Liu提出了一种基于粗糙集的半监督离群点检测方法。Albanese等人使用一种新的粗糙集方法将离群点检测扩展到时空数据。此外,Jiang等人利用粗糙集理论提出了一种基于边界的离群点检测方法。Jiang等人又提出了一种基于边界和距离的离群点检测方法。Chen等人提出了一种基于粒计算(Granular Computing,GrC)的离群点检测方法。虽然上述方法证明了粗糙集理论和GrC方法对离群点检测的有效性。然而,值得注意的是,这些方法建立数学模型基于等价关系和等价类,及其检测模型只适用于分类属性而不是数值属性数据集。在处理数值属性数据时,需要离散化处理这些检测模型,从而提高数据处理的时间并伴随着明显的信息丢失,从而影响检测的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910898517.X/2.html,转载请声明来源钻瓜专利网。