[发明专利]一种基于自然最近邻与最短路径的密度峰值聚类方法在审
申请号: | 201910719789.9 | 申请日: | 2019-08-06 |
公开(公告)号: | CN110472677A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 罗可;刘风华 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 43244 长沙智路知识产权代理事务所(普通合伙) | 代理人: | 陈建国<国际申请>=<国际公布>=<进入 |
地址: | 410114 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 最近邻 数据点 候选聚类 归一化 最短距离 数据集 求解 构建 最近邻算法 分配策略 复杂结构 获取数据 聚类结果 聚类中心 有效处理 最短路径 最近邻域 决策图 聚类 截止 | ||
一种基于自然最近邻与最短路径的密度峰值聚类方法,包括以下步骤:S1、获取数据集,采用自然最近邻算法求解数据点的自然最近邻和反向自然最近邻,并构建数据集的反向自然最近邻域图(Reverse Natural Nearest Neighborhood Graph:RNG);S2、根据数据点的自然最近邻和反向自然最近邻,求解数据点的局部密度和归一化局部密度;S3、依据数据点的归一化局部密度,获得候选聚类中心集,并依据RNG计算每个候选聚类中心的自然最短距离;S4、根据每个候选聚类中心的归一化局部密度和自然最短距离,构建决策图,选出正确的聚类中心;S5、按新的分配策略得到最终的聚类结果。不需要选取截止距离,并且可以有效处理复杂结构的数据集。
技术领域
本发明属于聚类分析技术领域,尤其涉及一种基于自然最近邻与最短路径的密度峰值聚类方法。
背景技术
聚类是一种无监督分类方法,根据样本的属性,将样本划分为若干簇,使得同一个簇内的样本具有较高的相似性,不同簇内的样本具有较低的相似性。聚类在商业、医学诊断、图像处理、信息检索和生物信息学等领域都有广泛的应用。聚类作为数据挖掘和机械学习领域重要的研究课题,研究学者已经提出了大量的聚类算法,典型的聚类算法包括基于划分的k-means和K-medoids、基于层次的CURE和BIRCH、基于模型的统计学聚类、基于密度的DBSCAN和OPTICS、基于网格的CLIQUE和STING等算法。
密度峰值聚类算法(Clustering by fast search and find of Density Peaks,DPC)是Alex Rodriguez等人于2014年在《Science》上提出的一种新的基于密度的算法,DPC算法与传统的聚类算法相比较有以下优点:一,原理简单且具有较高的效率;二,只需要较少的参数和无需迭代就能实现数据集的处理。基于以上优点,其研究具有很大的科研价值和应用潜力。但DPC算法也存在一些缺陷:一,需要凭借经验选取截止距离;二,局部密度和距离的定义过于简单,使DPC在具有多密度和流形等复杂数据集上效果不理想;三,其分配策略不健全,容错性差。
针对上述问题,亟需一种基于自然最近邻与最短路径的密度峰值聚类方法。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述问题,本发明提供了一种基于自然最近邻与最短路径的密度峰值聚类方法。不需要选取截止距离,并且可以有效处理复杂结构的数据集。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
一种基于自然最近邻与最短路径的密度峰值聚类方法,包括以下步骤:
步骤S1、获取数据集,根据自然最近邻算法求解数据集中数据点xi的自然特征值supk和反向自然最近邻值rnbi,并构建数据集的反向自然最近邻域图RNG。
步骤S2、根据数据点xi的自然特征值supk和反向自然最近邻值rnbi,计算数据点xi的局部密度ρi和归一化局部密度Nρi:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910719789.9/2.html,转载请声明来源钻瓜专利网。