[发明专利]一种基于时序密度聚类的大规模数据群组搜索方法在审
申请号: | 201811642734.4 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109711478A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 姚嘉豪 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/901 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 群组 大规模数据 时序 密度聚类 搜索 预处理 采集 数据密集型 高能物理 范围查询 关键问题 合并节点 节点关系 节点执行 连通关系 数据查询 搜索效率 簇节点 贡献度 聚类图 通信量 迭代 对线 构建 跨域 算法 访问 网络 保证 发现 | ||
本发明公开了一种基于时序密度聚类的大规模数据群组搜索方法,基于对线上亿个节点的采集,并对采集到的节点进行初步的预处理,构建原始簇及用来表达节点关系的聚类图,根据代表簇节点的连通关系找到合并节点所在的群组。随着算法的每一轮迭代,计算出不同时刻的节点贡献度得分,根据得分值的高低对节点执行范围查询。在保证最终群组发现的正确性的情况下,采用基于时序的密度聚类方法能很好地提高对大规模数据网络的搜索效率。采用本发明的方案能降低I/O及跨域通信量以满足高能物理数据密集型访问和多样化数据查询需求的关键问题。
技术领域
本发明属于信息检索领域,更具体地,涉及一种基于时序密度聚类的大规模数据群组搜索方法。
背景技术
高性能计算的能耗问题是我国推广大规模超算应用的主要瓶颈之一,高能物理作业计算量巨大,然而目前对批量到达任务尚无有效的解决策略。给定一些节点并根据它们属性的相似性归为群组(也称为簇)的方法称为聚类算法。现阶段的聚类方法可分为:基于划分的聚类方法(如K-MEANS算法)、基于层次的聚类方法(如BIRCH算法)、基于密度的聚类方法(如DBSCAN算法)。其中,基于密度的聚类方法可以克服其他聚类方法只能发现“类圆形”群组的缺点。目前,基于密度的聚类方法(如DBSCAN算法)在生活上的应用非常广泛,比如神经科学、天文学等。然而,近年来社交网络的规模不断扩张,移动应用APP(如微博)的节点数达到数十亿。面对大规模的复杂数据,已有的群组搜索方法开始出现了一系列的计算瓶颈。
影响现有的基于密度的聚类方法的性能指标主要有两个:第一个是执行所有节点的范围查询的时间,其与节点的个数成正比;第二个是群组标签的传播时间,其主要受到度量距离的影响。针对以上两个因素,有人曾提出过改进的方法,但都是用一种被动的方式去完成。比如说,之前的数据信息没有被学习到,就会引起大量的计算冗余从而限制了算法的性能。同时,现有的改进方法大部分采用批处理与网格机制,注意到,网格机制在大规模数据集的可扩展性中存在问题,而批处理机制则限制了在算法执行过程中与用户的交互。
近年来,Son等人提出了Ti-DBC方法是一种新的基于时序的群组节点搜索方法,在给定节点的属性可以快速根据时间序排列出其邻居节点的贡献度。基于时序的方法意为算法允许用户在某一轮迭代时终止算法同时修正并且生成一个对应的结果,起到与用户交互的作用。然而,该算法并没有考虑到节点归并成群组后网络的存储状态,在面对大规模复杂属性数据时,节点执行范围查询后的状态没有被记录,会出现计算冗余,大大影响算法的效率。
综上所述,现有技术存在的问题是:目前基于密度的群组搜索方法面对大规模复杂数据时出现了计算效率低下、系统扩展性不足的问题。
发明内容
为解决现有的技术缺陷,本发明公开了一种新的基于时序密度聚类的大规模数据群组搜索方法。本发明能有效地把节点的状态时序化,对某时刻处于不同状态的节点作出不同的处理,能够减少计算冗余,并在处理大规模数据时效率有较大提升。其次,在计算节点对群组的贡献度评分上,随着算法的不断迭代,根据不同时刻节点的得分值的高低,找到下一个最有希望归并入群组的节点执行范围查询,从而提高算法的收敛速度。
为解决上述技术问题,本发明的技术方案如下:
一种基于时序密度聚类的大规模数据群组搜索方法,包括以下步骤:
S1:根据给定的节点,定义节点的三种初始状态和原始簇;所述的初始状态包括初始态、未执行态、已执行态;所述的原始簇是已执行的核心点和已执行的核心点的已知的密度相连的邻居节点的集合;
S2:根据原始簇的相互关系,构建出原始簇之间的聚类图,定义不同原始簇的代表之间连通程度为state(a,b),所述的state(a,b)包括三种状态:强连通,弱连通,无连通;所述的a,b均为各自原始簇的代表;
S3:根据不同原始簇的代表之间连通程度,找到强连通的分量并进行合并;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811642734.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动驾驶模型的训练方法及装置
- 下一篇:一种数据处理与融合方法及其应用