[发明专利]一种高维聚类数据边界检测方法及装置在审

专利信息
申请号: 202111178171.X 申请日: 2021-10-09
公开(公告)号: CN114037000A 公开(公告)日: 2022-02-11
发明(设计)人: 夏子恒;王鹏辉;刘宏伟 申请(专利权)人: 西安电子科技大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 西安嘉思特知识产权代理事务所(普通合伙) 61230 代理人: 王萌
地址: 710000 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 高维聚类 数据 边界 检测 方法 装置
【说明书】:

发明公开了一种高维聚类数据边界检测方法及装置,该方法包括:获取待检测数据矩阵;计算待检测数据矩阵中所有数据点的k近邻对象;根据k近邻对象计算待检测数据点的平衡系数和距离校正系数,得到平衡系数向量和距离校正系数向量;计算平衡系数向量和距离校正系数向量的乘积,并对得到的乘积向量进行排序,以得到索引向量;根据索引向量确定边界点在待检测数据矩阵中的索引位置,以完成聚类数据边界检测。本发明提供的聚类数据边界检测方法相比现有技术,不仅可以针对二维平面数据实现边界检测,还能够对高维数据的聚类边界进行有效识别,且检测性能更好,准确率更高。

技术领域

本发明属于数据挖掘技术领域,具体涉及一种高维聚类数据边界检测方法及装置。

背景技术

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。聚类分析作为数据挖掘中的一种非常有用的技术,主要用于从大量的数据中寻找隐含的数据分布模式及关联规则,以便于有效地进行数据挖掘。在聚类分析技术中,聚类数据边界作为一种特殊的模式,它关注于那些分布在聚类边缘处具有明确的类归属但又与类内数据存在一定差异的数据。在现实世界中,其具有广泛的实践意义,如大型医疗数据集中某种隐形遗传疾病或隐性病毒的携带人群;基因表达谱数据中的异常基因片段;异于常态的手写体签名;监控视频中的目标闯入者等。现有的国内外研究团队利用几何理论已在低维空间的聚类边界获得了一定的成功。

1996年,M.Ester等人首次提出了聚类边界的概念,打开了聚类边界检测的大门。2006年,Xia C Y等人提出了BORDER算法,该算法使用反向k近邻技术提取聚类边界。由于聚类的边界点和噪声点的反向k近邻个数均较中心点更少,因此该算法的检测结果中往往混杂了较多的聚类噪声点。

为了弥补BORDER算法的不足,邱保志等人在2007年提出了BRIM算法,该算法基于边界点邻域分布不均匀而聚类核心点邻域分布近似均匀与这一特点进行边界识别,但该算法易受聚类边界附近的噪声影响,尤其不能准确提取变化密度和多密度聚类的边界。

薛丽香等人在2009年提出了BAND算法,该算法基于数据对象的变异系数来提取边界点,因此可以克服BRIM算法的缺点,但由于聚类周围噪声点的变异系数可能与部分边界的变异系数相同,导致该算法会将聚类噪声点误判为边界。

BRINK算法使用加权欧氏距离来度量数据点之间的相似性,也取得了较好的边界检测效果,但随着数据维度的增加,高维空间的稀疏性导致这种相似性的度量逐渐失效。

曹晓锋等人在2016年提出了Lever算法,该算法将高维数据在k近邻空间中的分布等效为一个杠杆的平衡性问题,聚类核心点的分布较聚类边界点的分布要更加平衡、稳定,但该算法在处理高维数据时,可能会遇到其散度系数上溢,超出计算量程的问题。

综上,现有聚类边界检查技术各自的缺点均会不同程度地降低聚类边界点的检测性能,不能有效的识别高维数据中的聚类边界,对后续的应用造成不利影响。

发明内容

为了解决现有技术中存在的上述问题,本发明提供了一种高维聚类数据边界检测方法及装置。本发明要解决的技术问题通过以下技术方案实现:

第一方面,本发明提供了一种高维聚类数据边界检测方法,包括:

S1:获取待检测数据矩阵;

S2:计算所述待检测数据矩阵中所有数据点的k近邻对象;

S3:根据所述k近邻对象计算待检测数据点的平衡系数和距离校正系数,得到平衡系数向量和距离校正系数向量;

S4:计算所述平衡系数向量和所述距离校正系数向量的乘积,并对得到的乘积向量进行排序,以得到索引向量;

S5:根据所述索引向量确定边界点在所述待检测数据矩阵中的索引位置,以完成聚类数据边界检测。

在本发明的一个实施例中,步骤S2包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111178171.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top