[发明专利]一种基于密度的层次聚类方法在审

专利信息
申请号: 201910237841.7 申请日: 2019-03-27
公开(公告)号: CN109948720A 公开(公告)日: 2019-06-28
发明(设计)人: 朱庆生;粟铭瑶;姚成亮;冉谨铭;张智勇 申请(专利权)人: 重庆大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 重庆市前沿专利事务所(普通合伙) 50211 代理人: 孔祥超
地址: 400044 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 集合 样本点 层次聚类 子簇 邻居 计算数据 聚类算法 设置参数 剩余样本 数据集中 有效解决 主观因素 最近邻 分配 分类 合并
【说明书】:

发明公开一种基于密度的层次聚类方法,包括以下几个步骤:S1:计算数据集中每个样本点的自然邻居数量;S2:根据自然邻居数量获得K值;S3:根据k值获取每个样本点的最近邻集合;S4:计算样本点的相对近邻核密度,得到密度值集合;S5:根据相对近邻核密度对数据集中样本点进行分类得到高密度点集合和低密度点集合;S6:将低密度点分配给高密度点,分别得到相对应高密度点的第一子簇,从而得到第一簇集合;S7:将第一簇集合中的第一子簇进行合并得到第二簇集合;S8:将剩余样本点分配到第二簇集合,得到第三簇集合。本发明能够有效解决聚类算法中参数的选择问题,避免人为设置参数带来的实验主观因素影响。

技术领域

本发明涉及数据聚类技术领域,特别涉及一种基于密度的层次聚类方法。

背景技术

基于密度的聚类算法核心是密度的定义,而密度主要描述的是数据点周边的部分邻域信息,然后通过密度估计函数来计算该点的密度值,该类算法的准则是通过数据点之间的密度相对信息来度量数据点之间的关系,从而达到聚类的效果的。对数据点之间的密度信息的计算也有着不同的方式,常用的方法有两种,第一种是在一个指定的邻域半径参数范围内,搜索数据集中的每个数据对象的该邻域半径范围内的所有点,然后通过统计这些数据点的个数来定义密度;通过点数进行判定密度,在搜索上能够使用数据索引进行加速,因此速度较快,然而却会产生不同的点有着相同密度的情况。第二种方式采用一些经典的核函数,通过对这些核函数中的参数进行设定,使用数据集中数据点处于数据集中位置的信息,进而估计出该点的密度,通常使用的核函数有高斯核函数与伽马核函数,使用核函数估计密度,可以避免不同点有相同密度的情况出现。

在使用核函数进行测量时,常用的核函数密度计算倾向于对小规模的数据集进行有偏估计;而基于最近邻(KNN)的改进核密度(NKD,Neighbor Kernel Density)计算能解决有偏估计的问题,但是因为NKD测量的是全局范围内的数据集,而一个低密度簇中仍然能存在高密度的数据点,因此NKD容易忽视小规模数据集。2017年提出了一种新的密度聚类算法-RECOME,该算法提出了一种新的密度测量方式:基于相对最邻的核密度(RNKD,RelativeNeighbor Kernel Density),该方式通过最近邻(KNN)限定范围,在计算数据点的密度估计时,只考虑它周围的邻居点,能够很好的计算密集区域和稀疏区域的簇;然而该算法对于KNN中超参数K值得选取仍然不固定,需要人为设置,并且该算法对于高密度区域和低密度区域交叉点的判断不准确,并且在流形数据集上的表现较差,对于复杂数据集不具有很好的适用性,因此本发明的研究目的是在RNDK的基础上提出一种新的基于密度测量的层次聚类算法,用以解决上述问题。

发明内容

针对现有技术的不足,本发明提供一种基于密度的层次聚类方法,通过引入相对最近邻核密度来计算数据点的密度,并且引入自然邻来对超参数进行选取,避免人为设置参数带来的实验主观因素影响;并且在流形数据上具有良好的表现,也能处理密度分布不均的数据。

为了实现上述目的,本发明提供以下技术方案:

一种基于密度的层次聚类方法,包括以下几个步骤:

S1:计算数据集中每个样本点的自然邻居数量;

S2:根据样本点的自然邻居数量计算K值;

S3:根据k值获取每个样本点的最近邻集合;

S4:计算样本点的相对近邻核密度,得到密度值集合;

S5:根据相对近邻核密度对数据集中样本点进行分类得到高密度点集合和低密度点集合;

S6:将低密度点分配给高密度点,分别得到相对应高密度点的第一子簇,从而得到第一簇集合;

S7:将第一子簇进行合并得到第二簇集合;

S8:将剩余样本点分配到第二簇集合,得到第三簇集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910237841.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top