[发明专利]一种高维聚类数据边界检测方法及装置在审
申请号: | 202111178171.X | 申请日: | 2021-10-09 |
公开(公告)号: | CN114037000A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 夏子恒;王鹏辉;刘宏伟 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安嘉思特知识产权代理事务所(普通合伙) 61230 | 代理人: | 王萌 |
地址: | 710000 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高维聚类 数据 边界 检测 方法 装置 | ||
本发明公开了一种高维聚类数据边界检测方法及装置,该方法包括:获取待检测数据矩阵;计算待检测数据矩阵中所有数据点的k近邻对象;根据k近邻对象计算待检测数据点的平衡系数和距离校正系数,得到平衡系数向量和距离校正系数向量;计算平衡系数向量和距离校正系数向量的乘积,并对得到的乘积向量进行排序,以得到索引向量;根据索引向量确定边界点在待检测数据矩阵中的索引位置,以完成聚类数据边界检测。本发明提供的聚类数据边界检测方法相比现有技术,不仅可以针对二维平面数据实现边界检测,还能够对高维数据的聚类边界进行有效识别,且检测性能更好,准确率更高。
技术领域
本发明属于数据挖掘技术领域,具体涉及一种高维聚类数据边界检测方法及装置。
背景技术
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。聚类分析作为数据挖掘中的一种非常有用的技术,主要用于从大量的数据中寻找隐含的数据分布模式及关联规则,以便于有效地进行数据挖掘。在聚类分析技术中,聚类数据边界作为一种特殊的模式,它关注于那些分布在聚类边缘处具有明确的类归属但又与类内数据存在一定差异的数据。在现实世界中,其具有广泛的实践意义,如大型医疗数据集中某种隐形遗传疾病或隐性病毒的携带人群;基因表达谱数据中的异常基因片段;异于常态的手写体签名;监控视频中的目标闯入者等。现有的国内外研究团队利用几何理论已在低维空间的聚类边界获得了一定的成功。
1996年,M.Ester等人首次提出了聚类边界的概念,打开了聚类边界检测的大门。2006年,Xia C Y等人提出了BORDER算法,该算法使用反向k近邻技术提取聚类边界。由于聚类的边界点和噪声点的反向k近邻个数均较中心点更少,因此该算法的检测结果中往往混杂了较多的聚类噪声点。
为了弥补BORDER算法的不足,邱保志等人在2007年提出了BRIM算法,该算法基于边界点邻域分布不均匀而聚类核心点邻域分布近似均匀与这一特点进行边界识别,但该算法易受聚类边界附近的噪声影响,尤其不能准确提取变化密度和多密度聚类的边界。
薛丽香等人在2009年提出了BAND算法,该算法基于数据对象的变异系数来提取边界点,因此可以克服BRIM算法的缺点,但由于聚类周围噪声点的变异系数可能与部分边界的变异系数相同,导致该算法会将聚类噪声点误判为边界。
BRINK算法使用加权欧氏距离来度量数据点之间的相似性,也取得了较好的边界检测效果,但随着数据维度的增加,高维空间的稀疏性导致这种相似性的度量逐渐失效。
曹晓锋等人在2016年提出了Lever算法,该算法将高维数据在k近邻空间中的分布等效为一个杠杆的平衡性问题,聚类核心点的分布较聚类边界点的分布要更加平衡、稳定,但该算法在处理高维数据时,可能会遇到其散度系数上溢,超出计算量程的问题。
综上,现有聚类边界检查技术各自的缺点均会不同程度地降低聚类边界点的检测性能,不能有效的识别高维数据中的聚类边界,对后续的应用造成不利影响。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种高维聚类数据边界检测方法及装置。本发明要解决的技术问题通过以下技术方案实现:
第一方面,本发明提供了一种高维聚类数据边界检测方法,包括:
S1:获取待检测数据矩阵;
S2:计算所述待检测数据矩阵中所有数据点的k近邻对象;
S3:根据所述k近邻对象计算待检测数据点的平衡系数和距离校正系数,得到平衡系数向量和距离校正系数向量;
S4:计算所述平衡系数向量和所述距离校正系数向量的乘积,并对得到的乘积向量进行排序,以得到索引向量;
S5:根据所述索引向量确定边界点在所述待检测数据矩阵中的索引位置,以完成聚类数据边界检测。
在本发明的一个实施例中,步骤S2包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111178171.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置