[发明专利]一种基于密度的多层分步聚类方法在审
申请号: | 201910378047.4 | 申请日: | 2019-05-08 |
公开(公告)号: | CN110210517A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 董明刚;吴宇伦;敬超 | 申请(专利权)人: | 桂林理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是根据普通的基于密度聚类算法提出的一种新的适用于数据分布非常不均匀,集群间密度差异大的聚类方法。该算法将每一个数据点当成一个节点,将每个点之间的距离看成是图的边,将数据集看成一个全连通的无向加权图。算法中通过一种新的密度定义方式,定义每个数据点的密度已经所有数据点的平均密度。在现有的基于密度的聚类方法中存在一些常见的缺陷和不足:算法必须设置参数、算法的行为对起始对象的密度很敏感、相邻簇如果密度差异大则不能很好的进行区分,本发明提出的方法只需要一个给定的参数,在聚类的过程中遍历的初始对象的密度对算法的结果基本上没什么影响,并且该算法可以区分任意形状、任意密度、分布哪怕十分不均匀的相邻簇。 | ||
搜索关键词: | 算法 聚类 密度差异 不均匀 相邻簇 无向加权图 密度定义 密度聚类 起始对象 设置参数 数据分布 数据集 遍历 多层 集群 连通 敏感 | ||
【主权项】:
1.一种基于密度的多层分步聚类方法,其特征在于包括以下步骤:步骤1,对于由n个待聚类j维数据:X1(x11,x12…x1j),X2(x21,x22..x2j)…..Xn(xn1,xn2…xnl),将每个数据点看成一个节点,然后计算每两个节点之间的距离(欧氏距离),定义为相应节点之间的边的权值,这样一来就将整个数据集看成了一个全连通的无向加权图G(V,E);步骤2,通过新的密度定义方式D(Xi,Xj)计算出整个数据集的平均密度;步骤3,随机选取一个数据点开始遍历所有数据,计算当前数据点的密度;步骤4,对比当前数据点的密度和平均密度,如果大于平均密度,则以该点为一个核心,向它周围的K个邻居遍历,如果邻居的密度也大于平均密度,则将其邻居也看做核心点,置于核心点的列队中,如果密度小于平均密度,则暂时将其看做噪声或是离群点,暂时不予处理;步骤5,遍历步骤4中的核心点队列,重复步骤4中的算法,遍历到一个点的时候就将该点从队列中去除,直到一个队列的长度为0,至此一个簇的核心部分已经被侦测出来;步骤6,通过密度相似度来判定簇的核心部分周围的数据点是否属于簇的一部分,如果相似度大于一个阈值,则将该点视为簇的边界点,小于阈值的视为噪点;步骤7,重复步骤3‑6,直到所有大于平均密度的点以及其周围的点都已经被分配完毕,这个时候有两种情况,一种是所有的簇都已经被发现,剩下未被分配的点全都视为噪点,另一种是该数据集是密度不均匀的数据集,有一些簇的密度很大,而有一些簇的密度很小;步骤8,统计已经被分配的簇,计算每个已被分配簇的平均数据量,例如当前有a个簇已经被发现,并且当前有m个数据点已经被分配,则每个簇的平均数据量为ap=m/a;步骤9,若当前剩余的数据量大于簇的平均数据量的二分之一,即:n–m>=ap/2,则视为还有密度较小的簇未被发现,重复步骤3‑8,直到n–m<ap/2.至此,所有数据点都已经被分配完毕。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林理工大学,未经桂林理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910378047.4/,转载请声明来源钻瓜专利网。