[发明专利]一种基于时序密度聚类的大规模数据群组搜索方法在审

申请号：	201811642734.4	申请日：	2018-12-29
公开（公告）号：	CN109711478A	公开（公告）日：	2019-05-03
发明（设计）人：	姚嘉豪	申请（专利权）人：	中山大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/901
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	群组大规模数据时序密度聚类搜索预处理采集数据密集型高能物理范围查询关键问题合并节点节点关系节点执行连通关系数据查询搜索效率簇节点贡献度聚类图通信量迭代对线构建跨域算法访问网络保证发现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于时序密度聚类的大规模数据群组搜索方法，基于对线上亿个节点的采集，并对采集到的节点进行初步的预处理，构建原始簇及用来表达节点关系的聚类图，根据代表簇节点的连通关系找到合并节点所在的群组。随着算法的每一轮迭代，计算出不同时刻的节点贡献度得分，根据得分值的高低对节点执行范围查询。在保证最终群组发现的正确性的情况下，采用基于时序的密度聚类方法能很好地提高对大规模数据网络的搜索效率。采用本发明的方案能降低I/O及跨域通信量以满足高能物理数据密集型访问和多样化数据查询需求的关键问题。

技术领域

本发明属于信息检索领域，更具体地，涉及一种基于时序密度聚类的大规模数据群组搜索方法。

背景技术

高性能计算的能耗问题是我国推广大规模超算应用的主要瓶颈之一，高能物理作业计算量巨大，然而目前对批量到达任务尚无有效的解决策略。给定一些节点并根据它们属性的相似性归为群组(也称为簇)的方法称为聚类算法。现阶段的聚类方法可分为：基于划分的聚类方法(如K-MEANS算法)、基于层次的聚类方法(如BIRCH算法)、基于密度的聚类方法(如DBSCAN算法)。其中，基于密度的聚类方法可以克服其他聚类方法只能发现“类圆形”群组的缺点。目前，基于密度的聚类方法(如DBSCAN算法)在生活上的应用非常广泛，比如神经科学、天文学等。然而，近年来社交网络的规模不断扩张，移动应用APP(如微博)的节点数达到数十亿。面对大规模的复杂数据，已有的群组搜索方法开始出现了一系列的计算瓶颈。

影响现有的基于密度的聚类方法的性能指标主要有两个：第一个是执行所有节点的范围查询的时间，其与节点的个数成正比；第二个是群组标签的传播时间，其主要受到度量距离的影响。针对以上两个因素，有人曾提出过改进的方法，但都是用一种被动的方式去完成。比如说，之前的数据信息没有被学习到，就会引起大量的计算冗余从而限制了算法的性能。同时，现有的改进方法大部分采用批处理与网格机制，注意到，网格机制在大规模数据集的可扩展性中存在问题，而批处理机制则限制了在算法执行过程中与用户的交互。

近年来，Son等人提出了Ti-DBC方法是一种新的基于时序的群组节点搜索方法，在给定节点的属性可以快速根据时间序排列出其邻居节点的贡献度。基于时序的方法意为算法允许用户在某一轮迭代时终止算法同时修正并且生成一个对应的结果，起到与用户交互的作用。然而，该算法并没有考虑到节点归并成群组后网络的存储状态，在面对大规模复杂属性数据时，节点执行范围查询后的状态没有被记录，会出现计算冗余，大大影响算法的效率。

综上所述，现有技术存在的问题是：目前基于密度的群组搜索方法面对大规模复杂数据时出现了计算效率低下、系统扩展性不足的问题。

发明内容

为解决现有的技术缺陷，本发明公开了一种新的基于时序密度聚类的大规模数据群组搜索方法。本发明能有效地把节点的状态时序化，对某时刻处于不同状态的节点作出不同的处理，能够减少计算冗余，并在处理大规模数据时效率有较大提升。其次，在计算节点对群组的贡献度评分上，随着算法的不断迭代，根据不同时刻节点的得分值的高低，找到下一个最有希望归并入群组的节点执行范围查询，从而提高算法的收敛速度。

为解决上述技术问题，本发明的技术方案如下：

一种基于时序密度聚类的大规模数据群组搜索方法，包括以下步骤：

S1：根据给定的节点，定义节点的三种初始状态和原始簇；所述的初始状态包括初始态、未执行态、已执行态；所述的原始簇是已执行的核心点和已执行的核心点的已知的密度相连的邻居节点的集合；

S2：根据原始簇的相互关系，构建出原始簇之间的聚类图，定义不同原始簇的代表之间连通程度为state(a，b)，所述的state(a，b)包括三种状态：强连通，弱连通，无连通；所述的a，b均为各自原始簇的代表；

S3：根据不同原始簇的代表之间连通程度，找到强连通的分量并进行合并；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811642734.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于时序密度聚类的大规模数据群组搜索方法在审

专利文献下载