[发明专利]基于密度的连通图的聚类方法与装置有效
申请号: | 201611178399.8 | 申请日: | 2016-12-19 |
公开(公告)号: | CN106778872B | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 束博;席卓 | 申请(专利权)人: | 北京天广汇通科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 11438 北京律智知识产权代理有限公司 | 代理人: | 邢雪红;姜怡 |
地址: | 100098 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 密度 连通 方法 装置 | ||
本公开提供一种基于密度的连通图的聚类方法与装置。聚类方法包括:将连通图的节点划分为预设数量个节点集合;基于密度在所述节点集合中选取种子节点;根据所述种子节点获得所述预设数量个子聚类。本公开提供的聚类方法可以提高大型连通图的聚类速度,并且提升聚类的准确率。
技术领域
本公开涉及机器学习技术领域,具体而言,涉及一种基于密度的连通图的聚类方法与装置。
背景技术
聚类(Clustering)的本质是对数据进行分类,将相异的数据尽可能地分开,而将相似的数据聚成一个类别(簇),使得同一类别的数据具有尽可能高的同质性(homogeneity),类别之间有尽可能高的异质性(heterogeneity),从而方便从数据中发现隐含的有用信息。
现有的聚类算法通常可以分为基于分层的聚类、基于划分的聚类、基于密度的聚类、基于网格的聚类、基于模型的聚类等等。在基于密度的聚类方法中,通常存在着计算复杂度高、用户体验不好、不具有扩展性、无法对大数据进行聚类等缺点。例如,PIC聚类算法会把不连通的点划分到一个聚类,DBSCAN算法对用户定义的参数很敏感,细微的不同都可能导致差别很大的结果,而参数的选择无规律可循,只能靠经验确定,无法给用户带来良好的用户体验。
因此,需要一种复杂度小、计算速度快、准确率较高、扩展性好并且能给用户带来良好用户体验的聚类算法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种基于密度的连通图的聚类方法与装置,用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或多个问题。
根据本公开实施例的第一方面,提供一种基于密度的连通图的聚类方法,包括:
将连通图的节点划分为预设数量个节点集合;
基于密度在所述节点集合中选取种子节点;
根据所述种子节点获得所述预设数量个子聚类。
在本公开的一种示例性实施例中,所述将连通图的节点划分为预设数量个节点集合包括:使用PIC聚类算法将连通图的节点划分为预设数量个节点集合。
在本公开的一种示例性实施例中,所述根据所述种子节点获得所述预设数量个子聚类包括:使用标签传递算法获得所述预设数量个子聚类。
在本公开的一种示例性实施例中,所述基于密度在所述节点集合中选取种子节点包括:
设置选取次数m;
将所述节点集合中出入度之和最大的节点作为种子节点集合的第一个元素;
重复以下操作m次:随机选取所述种子节点集合中的任一节点,将与其具有连接关系的一个节点加入到所述种子节点集合;
将所述种子节点集合中的节点标记为种子节点。
在本公开的一种示例性实施例中,所述出入度之和最大的节点为所述节点集合中拥有最多集合内连接关系的节点。
在本公开的一种示例性实施例中,所述设置选取次数m包括通过以下方程设置:
其中|Ni|表示所述节点集合中节点的数量,|Ei|表示所述节点集合中边的数量,ε∈(0,1),表示控制计算速度和准确度的参数。
根据本公开的一个方面,提供一种基于密度的连通图的聚类装置,包括:
聚类划分模块,用于将连通图的节点划分为预设数量个节点集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天广汇通科技有限公司,未经北京天广汇通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611178399.8/2.html,转载请声明来源钻瓜专利网。