[发明专利]一种基于核心点保留的DBSCAN的异常数据识别检测方法在审
申请号: | 201911196658.3 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110942099A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 高振国;胡凌岳;陈丹杰;蔡绍滨;王田;莫毓昌;陈益峰;张忆文 | 申请(专利权)人: | 华侨大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 361021 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 核心 保留 dbscan 异常 数据 识别 检测 方法 | ||
本发明公开了一种基于核心点保留的DBSCAN的异常数据识别检测方法,包括以下步骤:S1:将数据集随机划分成训练集和测试集;S2:构建训练集的近邻矩阵Croe‑M和逆近邻矩阵Croe‑MR,采用逆近邻矩阵Croe‑MR作为判定核心点的依据;本发明涉及异常识别检测方法技术领域。该基于核心点保留的DBSCAN的异常数据识别检测方法通过重新定义了“密度”,利用“密度”对训练集进行聚类并打上标签,由此,再利用标签,对剩余测试集中的数据进行分类;通过随机抽样来划分训练集和测试集,提高了该检测方法的拓展性;同时,仅采用核心点建立模型,有效降低噪声点,尤其是边缘点对分类结果的影响;通过“密度”定义,能够好代表样本点在数据集类别中的权重,拥有更好的分类效果。
技术领域
本发明涉及异常识别检测方法技术领域,具体为一种基于核心点保留的DBSCAN的异常数据识别检测方法。
背景技术
异常识别,是一种针对数据集中离群样本点的检测方法。异常的内涵丰富,可能是噪声、误差、或是稀有值。在数据挖掘领域,其普遍认可的定义是,一种由其它机制产生,且与大多数观测值相偏离的点。在本文中,与“异常点”相对的点称为“正常点””。
异常识别作为一种重要的研究方向,已经广泛在信用卡欺诈识别、疾病诊断和预防、网络入侵、测量误差、用电行为异常等现实应用中。
基于统计的异常识别方法
从20世纪80年代起,异常识别问题就在统计学领域里得到广泛研究,通常用户用某个统计分布对数据点进行建模,再以假定的模型,根据点的分布来确定是否异常。许许多多针对不同分布的异常测试(Discordancy Test)方法发展起来,它们分别适用于不同的情形:①数据分布状况;②数据分布参数是否已知③异常数据数量;④异常数据类型(高于或低于一般抽样取值)。这方面比较有代表性的有基于“均数漂移”模型的单点诊断量,群组诊断量,单样本多个离群检测方法ESD等。近年来,多样本的离群检测方法也得到了一定的发展,总的思路是先尽量得到一个不含离群点的“干净集”,然后在此基础上对剩余的其他数据点进行逐步离群检测。
目前利用统计学研究异常点数据有了一些方法,如通过分析统计数据的散度情况,即数据变异指标,来对数据的总体特征有更进一步的了解,对数据的分布清苦昂有所了解,进而通过数据变异指标来发现数据中的异常点数据,常用的数据变异指标有极差、四分位数间距、均差、标准差、变异系数等等,变异指标的值大表示变异大、散布广;值小表示离差小,教密集。
基于统计的方法识别出来的离群点很可能被不同的分布模型检测出来,可以说产生这些离群点的机制可能不唯一,解释离群点的意义时经常发生多义性,这是基于统计方法的一个缺陷,其次,基于统计的方法在很大程度上依赖于待挖掘的数据集是否满足某种概率分布模型,模型的参数、离群点的数目等对基于统计的方法都有非常重要的意义,而确定这些参数通常都比较困难,为克服这一问题,一些人剔除对数据集进行分布拟合,但分布拟合存在两个问题:①给出的分布可能不适合任一标准分布;②即使存在一个标准分布,分布拟合的过程耗时太长,此外,基于统计的离群识别方法大多只适用于挖掘单变量的数值型数据,目前几乎没有多元的不一致检验,对于大多数的应用来说,例如图像和地理数据,数据集的维数却可能是高维的,实际生活中,以上缺陷都大大限制了基于统计的方法的应用,使得它主要局限于科研计算,方法的可移植性较差。
发明内容
针对现有技术的不足,本发明提供了一种基于核心点保留的DBSCAN的异常数据识别检测方法,解决了异常数据的识别方法几乎没有多元的不一致检验的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于核心点保留的DBSCAN的异常数据识别检测方法,包括以下步骤:
S1:将数据集随机划分成训练集和测试集;
S2:构建训练集的近邻矩阵Croe-M和逆近邻矩阵Croe-MR,采用逆近邻矩阵Croe-MR作为判定核心点的依据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学,未经华侨大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911196658.3/2.html,转载请声明来源钻瓜专利网。