[发明专利]一种基于密度的层次聚类方法在审
申请号: | 201910237841.7 | 申请日: | 2019-03-27 |
公开(公告)号: | CN109948720A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 朱庆生;粟铭瑶;姚成亮;冉谨铭;张智勇 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆市前沿专利事务所(普通合伙) 50211 | 代理人: | 孔祥超 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集合 样本点 层次聚类 子簇 邻居 计算数据 聚类算法 设置参数 剩余样本 数据集中 有效解决 主观因素 最近邻 分配 分类 合并 | ||
1.一种基于密度的层次聚类方法,其特征在于,包括以下几个步骤:
S1:计算数据集中每个样本点的自然邻居数量;
S2:根据样本点的自然邻居数量计算K值;
S3:根据k值获取每个样本点的最近邻集合;
S4:计算样本点的相对近邻核密度,得到密度值集合;
S5:根据相对近邻核密度对数据集中样本点进行分类得到高密度点集合和低密度点集合;
S6:将低密度点分配给高密度点,分别得到相对应高密度点的第一子簇,从而得到第一簇集合;
S7:将第一子簇进行合并得到第二簇集合;
S8:将剩余样本点分配到第二簇集合,得到第三簇集合。
2.如权利要求1所述的一种基于密度的层次聚类方法,其特征在于,所述步骤S2中,自然邻居数量集合记为NB={s1,s2,s3,…,sn},sn表示第n个数据点的自然邻居数量,计算出集合NB中的四分位数排列,记为:Q(Dsupk)=[Q1,Q2,Q3,Q4],Q1表示下四分位数,Q2表示是中位数,Q3表示上四分位数,Q4表示最大值,则
3.如权利要求1所述的一种基于密度的层次聚类方法,其特征在于,所述步骤S3中,所述样本点的最近邻集合获取方法为:计算数据集中任一样本点u与其它样本点之间的欧式距离,并将所得欧式距离按从小到大的顺序进行排列,选取前k个欧式距离值对应的样本点从而得到样本点u的最近邻集合N(u)。
4.如权利要求3所述的一种基于密度的层次聚类方法,其特征在于,所述欧式距离的计算公式为:
公式(1)中,d(u,v)表示样本点u和v之间的欧式距离,(xu,yu)表示样本点u的空间坐标,(xv,yv)表示样本点v的空间坐标。
5.如权利要求1所述的一种基于密度的层次聚类方法,其特征在于,所述步骤S4中,所述相对近邻核密度计算公式为:
公式(2)中,ρ*(u)表示样本点u的相对近邻核密度,用于表示样本点u的密度值,v表示样本点u的最近邻集合N(u)中的任一样本点,ρ(v)表示样本点v的近邻核密度,公式的意义是将计算出的样本点u的近邻核密度ρ(u)在近邻范围内进行缩放,以在稀疏簇中计算出相对密度较高的点,用于对稀疏簇进行分类;
公式(3)中,ρ(u)表示样本点u的近邻核密度,θ表示正则化系数,N(u)表示样本点u的最近邻集合,d(u,v)表示样本点u和样本点v的欧式距离,σ表示样本点u与其最近邻集合中N(u)中所有样本点的欧式距离的平均距离,dk(u)表示样本点u与其最近邻集合N(u)中任一样本点的欧式距离,|Nu|表示集合N(u)的样本点个数。
6.如权利要求1所述的一种基于密度的层次聚类方法,其特征在于,所述步骤S5包括以下步骤:
S5-1:计算密度值集合中样本点相对近邻核密度的平均值mean_Dρ:
公式(4)中,ρ*(un)表示样本点un的相对近邻核密度,N表示密度值集合Dρ中样本点密度值的总个数;
S5-2:根据相对近邻核密度对样本点进行分类:
将密度值集合Dρ中相对近邻核密度大于或等于mean_Dρ相对应的样本点划分为高密度点集合DH;将密度值集合Dρ中相对近邻核密度小于mean_Dρ相对应的样本点划分为低密度点集合DL。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910237841.7/1.html,转载请声明来源钻瓜专利网。