[发明专利]一种基于边缘侵蚀的聚类方法在审
申请号: | 201710690910.0 | 申请日: | 2017-08-14 |
公开(公告)号: | CN107491785A | 公开(公告)日: | 2017-12-19 |
发明(设计)人: | 赵万磊;邓称浩;王菡子 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 厦门南强之路专利事务所(普通合伙)35200 | 代理人: | 马应森,曾权 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 边缘 侵蚀 方法 | ||
技术领域
本发明涉及聚类问题,尤其是涉及一种基于边缘侵蚀的聚类方法。
背景技术
聚类问题源自于一系类的应用,如文本/网页聚类、模式识别、图像链接、图像分割、通过向量量化进行的数据压缩以及生物信息学。最近30年有大量的聚类算法被提出,但是各种算法都有不少的缺陷:
1.k-means是最通用的聚类算法,需要指定聚类数目,并且这种算法倾向于发现簇大小差不多的球状簇;
2.DBSCAN是基于密度的聚类,能发现任意形状的簇,但需要给出区别类的阈值,而这个阈值通常是很难确定的。
clusterDP是2014年在《Science》上发表的,综合表现较好的算法,但是仍然需要指定聚类数目,且适用于类的中间到边缘密度依次递减的情形。
发明内容
本发明的目的在于以克服聚类算法的上述缺陷,提供一种基于边缘侵蚀的聚类方法,
本发明包括以下步骤:
1)计算输入数据每个点的近邻关系或者直接获得每个数据点的近邻关系;
在步骤1)中,所述计算输入数据每个点的近邻关系的具体方法可为:计算每两个点之间的距离,获得每个点周围的近邻关系,找出每个点周围的近邻关系可包括但不限于以下方式:
(1)找出每个点距离范围d内的所有点作为该点的近邻;所述距离范围为任何可算出近邻关系的距离度量,支持多种近邻关系,对于输入数据每个点的密度即周围邻接点数可以被估计的情形都适用;所述距离包括欧氏距离,余弦距离,汉明距离等;
(2)找出距离每个点距离范围d内的所有点作为该点的近邻,若该点的近邻数量少于k,则继续加入距离超过d的点,直到其近邻数等于k;所述d和k均为给定参数,d和k的选择可根据具体问题选定,第一种近邻关系称之为对称关系,第二种近邻关系称之为非对称关系。
2)计算边缘侵蚀密度;
在步骤2)中,所述计算边缘侵蚀密度的具体方法可为:
(1)初始时以每点周围近邻点数量作为每个点的密度;
(2)删除密度最小的点,若有多个点同时拥有最小密度,则同时删除;
(3)重新计算删除密度最小点之后,剩余点的密度;
(4)重复步骤(2)和步骤(3)直到所有的点都被删除;
经过上述4个步骤,获得每个点被删除的先后顺序,以删除点的顺序作为点的等级,先删除的点等级较低,后删除的点等级较高,同时删除的点等级相同。
3)根据所述点的等级高低依次分配类标签,具体方法如下:
(1)按照点的等级由高到低排列,即删除先后顺序的逆序;
(2)依次访问每个点,若当前点的近邻没有类标,则分配一个新的类标,若有,则用已被标记的近邻中离当前点最近的点的类标标记当前点;
(3)重复步骤(2)直到所有点被标记;按照剔除点的顺序的逆序分配类标签,类中心区域将最先被标记,一个类标签将从类中心向外扩展,自动终止于类的边界,类的边界即为那些初始密度较低的点,所述类中心区域为高密度区域。
本发明的聚类有以下优势:
1.无须指定聚类数目,通常只需要在获得近邻关系时使用一个阈值,这种判断是否近邻的阈值通常是很容易确定的;
2.可以发现任意形状的聚类,因任意形状的簇通常满足边缘密度最小;
3.聚类效果在各种数据集上取得了很好的效果,优于著名的DBCAN,AP,k-means和clusterDP算法;
4.近邻关系可以使用一些近似算法获得,在已有近邻关系的前提下,由于每次更新近邻密度仅仅涉及很少的点,因此很容易达到时间复杂度仅为O(n·log(n)),其中n为输入要聚类的点的数目。
附图说明
图1是本发明方法在Aggregation测试集上的聚类结果。数据是人工生成的2维点。一个形状代表点被本发明方法认定为一个类。
图2是本发明方法在S2测试集上的聚类结果。数据是人工生成的2维点。一个形状代表点被本发明方法认定为一个类。
图3是本发明方法在Flame测试集上的聚类结果。数据是人工生成的2维点。一个形状代表点被本发明方法认定为一个类。
图4是本发明方法在Spiral测试集上的聚类结果。数据是人工生成的2维点。一个形状代表点被本发明方法认定为一个类。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
本发明实施例包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710690910.0/2.html,转载请声明来源钻瓜专利网。