[发明专利]基于局部敏感哈希的多GPU密度峰值聚类方法有效
申请号: | 201810685672.9 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108897847B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 李东升;葛可适;苏华友 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/35 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 董惠文 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 局部 敏感 gpu 密度 峰值 方法 | ||
本发明属于数据挖掘领域,针对解决现有密度峰值聚类方法在解决大型和高维数据集聚类问题时计算复杂性太高、时间消耗太高的问题,提供一种基于局部敏感哈希的多GPU密度峰值聚类方法,包括四个过程:计算距离矩阵;计算局部密度;计算距离δ;计算聚类中心并指派类簇。核心思想是原始数据通过局部敏感哈希进行划分,并利用共享内存提高读写速度。这种方法充分利用局部敏感哈希将相似数据划分到相同GPU中,能够减少不必要的距离计算。而且设计多个哈希函数通过或运算对数据划分,减少相似数据被映射到不同GPU中,基于消息传递接口MPI实现多GPU统计方法,提高了参数计算速度。
技术领域
本发明属于数据挖掘领域,特别是涉及一种基于局部敏感哈希的多GPU(GraphicProcessing Unit,图形处理器)密度峰值聚类方法。
背景技术
聚类(clustering)是一种无监督分类技术,其目的是按照数据间相似性将未标记的数据集分成有限类别或集群,最终使得组内数据相似度大,而组间差异性大。由于聚类可以在数据集中找到隐藏的模式,因此已被广泛应用于机器学习、计算机视觉和生物信息学等众多科学研究中。目前主要有以下几种聚类方法:(1)K-means和K-medoids方法,将数据点的中心作为相应的聚类中心,只能发现球形簇的缺点,不适用于非球形聚类,聚类结果敏感到集群的数量,且对噪声不敏感;(2)分层聚类方法,根据接近矩阵将数据组织成层次结构,但这种方法的时间复杂度很高,需要提前指定簇的数量;(3)自组织映射(Self-organizing Maps,SOM)等基于模型的聚类方法,为每个集群设置一个模型,并找到模型的最佳拟合,但该模型不一定正确,且聚类结果对参数敏感。
2014年Rodriguez和Laio在《Science》发表的论文“Clustering by fast searchand find of density peaks,DPC(基于密度峰值的聚类方法),Science,2014,344(6191):1492-1496”提出了密度峰值(Density Peak,DP)聚类方法,为聚类算法的设计提供了新的思路,他们提出了局部密度和相对距离这两个假设,因而DP能够快速有效地发现任意形状的簇,已经广泛应用于各种领域,并且显示出良好的聚类结果。DP把较低局部密度的相邻点包围的数据点作为聚类中心,其中较低局部密度意味着该点的局部密度低于一定范围内的至少一个点的局部密度。由于类簇中心彼此远离,因此类簇中心距离与具有较高局部密度的数据点具有相对较大的距离。与其他以前的聚类方法相比,DP具有很多优点,虽然DP具有许多有吸引力的特征,但计算复杂度非常高,特别是随着数据大小和数据维度的增加,这阻碍了密度峰值方法的广泛应用。要确定集群中心并将点分类到相应的集群,DP需要计算每个点的两个元素:局部密度ρ和相对高密度点的距离δ。其定义分别公式(1)、(2)所示:
数据点的局部密度:
其中dc为超参数,其满足这样的条件:平均每个点的dc范围内的数据点数目是数据点总数的2%。
相对高密度点的距离δ:
它们都取决于所有数据点对之间的距离。假设数据集的大小为N,则每对点之间的距离的计算复杂度为O(N2)。此外,局部密度ρ的大小对阈值dc敏感,通常,通过对所有距离的值进行排序来实现计算dc的过程,然后在排序的距离列表中找到其位置。对于大型和高维数据集,排序矩阵时间消耗太高。
发明内容
本发明将针对解决现有密度峰值聚类方法在解决大型和高维数据集聚类问题时计算复杂性太高、时间消耗太高的问题,提供一种基于局部敏感哈希的多GPU密度峰值聚类方法。
基于局部敏感哈希的多GPU密度峰值聚类方法主要包括四个过程组成:计算距离矩阵;计算局部密度;计算距离δ;计算聚类中心并指派类簇;具体技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810685672.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息搜索方法、设备及计算机可读存储介质
- 下一篇:机器人互动方法、装置及设备