[发明专利]一种基于核心点保留的DBSCAN的异常数据识别检测方法在审
申请号: | 201911196658.3 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110942099A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 高振国;胡凌岳;陈丹杰;蔡绍滨;王田;莫毓昌;陈益峰;张忆文 | 申请(专利权)人: | 华侨大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 361021 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 核心 保留 dbscan 异常 数据 识别 检测 方法 | ||
1.一种基于核心点保留的DBSCAN的异常数据识别检测方法,其特征在于:包括以下步骤:
S1:将数据集随机划分成训练集和测试集;
S2:构建训练集的近邻矩阵Croe-M和逆近邻矩阵Croe-MR,采用逆近邻矩阵Croe-MR作为判定核心点的依据;
S3:根据逆近邻矩阵对训练集进行聚类,通过对边缘点进行标记,待聚类结束后,对边缘点和噪声点进行剔除,仅保留核心点,并对核心点类别进行标记,构成了拥有代表性的,有标签的和仅有核心点的分类模型Core-Model;
S4:对测试集数据进行迭代,循环执行操作:将样本点加入核心点分类模型Core-Model,生成新的近邻矩阵Test-M和逆近邻矩阵Test-MR,最后对样本点进行分类。
2.根据权利要求1所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法,其特征在于:所述S2中以样本点在环境中的影响因子作为密度标准。
3.根据权利要求1所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法,其特征在于:所述S3中首先将边缘点和噪声点剔除,然后对核心点进行标记类别形成标签,最后利用标签生成分类模型。
4.根据权利要求1所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法,其特征在于:所述S4中将样本点加入模型,根据Test-MR计算样本点的密度,作为样本点和模型中核心点的相似程度的评价标准,以此标准作为样本点的分类依据。
5.根据权利要求1所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法,其特征在于:所述S4中设样本数据集为D,其中样本点数量为n,属性个数为m,所述样本分类方法包括一下步骤:
T1:对样本数据集D进行横向抽样,得到子样本数据集Dr;
T2:对Dr计算样本的近邻矩阵,再根据近邻矩阵计算出逆近邻矩阵;
T3:根据Dr数据集的逆近邻矩阵中元素在其余样本点近邻矩阵的出现状况作为样本点在数据集中的“密度”,依此对数据集Dr中的样本点进行聚类;
T4:记Dt=D-Dr,从Dt中取出一个未分类的样本点,加入分类模型,更新分类模型的逆近邻矩阵,根据样本点在分类模型中的“密度”表现,对样本点进行类别划分;
T5:重复步骤4直到Dt中未分类的样本点数目为0。
6.根据权利要求5所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法,其特征在于:所述T3中并对核心点进行标记类别,剔除噪声点和边缘点,构成分类模型。
7.根据权利要求1所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法,其特征在于:所述S1中数据集要求划分的训练集能够满足聚类后核心点的类别数量与所有样本的类别数量一致。
8.根据权利要求1所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法,其特征在于:所述S2中近邻矩阵和逆邻矩阵的构建方法包括:
令X代表一组样本点大小为n=|X|,X中的每个样本点是d维空间的真实值,x∈Rd,任意两个样本点x,y∈X,采用偶几里德距离作为两个样本点的距离:用于观察x∈X,基于两个邻域函数的定义K,应当满足0≤k≤n,
其次,设样本点x的k-近邻由函数Nk(x)=N定义划分类别,N应当满足以下条件:
|N|=k,、z∈X/(N+{x}):dist(x,y)≤dist(x,z),
进而,定义样本点x的k-逆紧邻为Rk(x)=R,其中R满足以下条件:
x∈Nk(y);
同样,将样本点划分为三类:核心点、边缘点和噪声点,由样本点的近邻和逆近邻构造数据集的近邻矩阵和逆近邻矩阵。
9.根据权利要求4所述的一种基于核心点保留的DBSCAN的异常数据识别检测方法,其特征在于:所述密度包括密度可达和密度相连,所述密度可达定义为若样本点x到观测点y密度可达,则|Rk(x)|≥k,即样本点x的逆近邻数满足阈值要求且观测点y为x的逆近邻点,密度相连定义为若样本点z分别和样本点x和样本点y密度可达,则认定样本点x和样本点y之间经由样本点z密度可达。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学,未经华侨大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911196658.3/1.html,转载请声明来源钻瓜专利网。