[发明专利]聚类方法、装置及终端设备有效
申请号: | 201410073496.5 | 申请日: | 2014-02-28 |
公开(公告)号: | CN103902655B | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 陈志军;张涛;王琳 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙)11363 | 代理人: | 逯长明,陈蕾 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 方法 装置 终端设备 | ||
技术领域
本公开涉及数据处理技术领域,特别是涉及一种聚类方法、装置及终端设备。
背景技术
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,即将对象分类到不同的类或者簇的过程,同一个类中的对象有很大的相似性,不同类之间的对象有很大的相异性。
聚类方法包括很多种类,其中,基于密度的聚类方法与其它的聚类方法不同的是它不是基于各种距离,而是基于密度,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。这样能够克服基于距离的聚类算法只能发现“类圆形”的聚类的缺点。例如,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法就是基于密度的聚类方法中一种典型算法,DBSCAN算法将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可以在噪声的空间数据库中发现任意形状的聚类。DBSCAN算法引入了核心对象的概念和两个初始参数Eps(扫描半径)和MinPts(最小包含对象数)。如果存在一个对象,在距它Eps的范围内有不少于MinPts个对象,则该对象就是核心对象。核心对象和它的Eps范围内的邻居对象形成一个簇。在一个簇内如果出现多个对象都是核心对象,则以这些核心对象为中心的簇要合并。但是,此种聚类算法的聚类结果对参数Eps和MinPts的取值非常敏感,即Eps和MinPts的取值不同,产生不同的聚类结果,从而导致聚类结果的不确定性。
发明内容
为克服相关技术中存在的问题,本公开提供一种聚类方法、装置及终端设备。
为了解决上述技术问题,本公开实施例公开了如下技术方案:
根据本公开实施例的第一方面,提供一种聚类方法,包括:
针对任一待访问对象,获取所述待访问对象的全部邻居对象;
判断所述待访问对象的多重邻域中是否存在至少一重领域内的邻居对象的数量不小于对应的预设阈值,所述多重邻域的扫描半径设置为由小到大依次变化;
当所述多重邻域中存在至少一重邻域内的邻居对象的数量不小于对应的预设阈值时,将所述待访问对象归为一类;
对所述待访问对象在指定邻域内的直接密度可达的对象进行扩展聚类,直到没有新的对象加入所述待访问对象所在的类。
结合第一方面,在第一方面的第一种可能的实现方式中,判断所述待访问对象的多重领域中是否存在至少一重领域内的邻居对象的数量不小于对应的预设阈值,采用如下方式:
获取所述邻居对象与所述待访问对象之间的距离;
按照扫描半径由小到大的顺序,根据所述距离判断所述邻域内的邻居对象的数量是否不小于对应的预设阈值;
当所述邻域内的邻居对象的数量不小于所述预设阈值时,确定所述待访问对象为核心对象;
当所述领域内的邻居对象的数量小于所述预设阈值时,判断所述待访问对象的多重邻域是否全部判断完;
当未判断完所述多重邻域时,返回执行按照扫描半径由小到大的顺序,判断下一重邻域内的邻居对象的数量是否不小于对应的预设阈值;
当判断完所述多重邻域时,确定所述待访问对象不是核心对象。
结合第一方面,在第一方面的第二种可能的实现方式中,在所述待访问对象的多重邻域中是否存在至少一重领域内的邻居对象的数量不小于对应的预设阈值,采用如下方式:
获取所述邻居对象与所述待访问对象之间的距离;
获取所述距离对应的权重系数,所述权重系数与所述距离相关;
根据所述权重系数计算所述领域内邻居对象的数量;
按照扫描半径由小到大的顺序,判断所述邻域内的邻居对象的数量是否不小于所述预设阈值;
当所述领域内的邻居对象的数量不小于所述预设阈值时,确定所述待访问对象为核心对象;
当所述邻域内的邻居对象的数量小于所述预设阈值时,判断所述待访问对象的多重邻域是否判断完;
当未判断完所述多重邻域时,返回执行根据所述权重系数计算下一重邻域内邻居对象的数量的步骤;
当所述待访问对象的多重邻域全部判断完时,确定所述待访问对象不是核心对象。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,获取所述距离对应的权重系数,采用如下方式:
根据样本对象统计得到对象间的距离以及两个对象是否是同一对象的概率之间的对应关系;
查询所述对应关系,获得所述距离对应的两个对象是否是同一个对象的概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410073496.5/2.html,转载请声明来源钻瓜专利网。