[发明专利]一种基于时序密度聚类的大规模数据群组搜索方法在审
申请号: | 201811642734.4 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109711478A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 姚嘉豪 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/901 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于时序密度聚类的大规模数据群组搜索方法,基于对线上亿个节点的采集,并对采集到的节点进行初步的预处理,构建原始簇及用来表达节点关系的聚类图,根据代表簇节点的连通关系找到合并节点所在的群组。随着算法的每一轮迭代,计算出不同时刻的节点贡献度得分,根据得分值的高低对节点执行范围查询。在保证最终群组发现的正确性的情况下,采用基于时序的密度聚类方法能很好地提高对大规模数据网络的搜索效率。采用本发明的方案能降低I/O及跨域通信量以满足高能物理数据密集型访问和多样化数据查询需求的关键问题。 | ||
搜索关键词: | 群组 大规模数据 时序 密度聚类 搜索 预处理 采集 数据密集型 高能物理 范围查询 关键问题 合并节点 节点关系 节点执行 连通关系 数据查询 搜索效率 簇节点 贡献度 聚类图 通信量 迭代 对线 构建 跨域 算法 访问 网络 保证 发现 | ||
【主权项】:
1.一种基于时序密度聚类的大规模数据群组搜索方法,其特征在于,包括以下步骤:S1:根据给定的节点,定义节点的三种初始状态和原始簇;所述的初始状态包括初始态、未执行态、已执行态;所述的原始簇是已执行的核心点和已执行的核心点的已知的密度相连的邻居节点的集合;S2:根据原始簇的相互关系,构建出原始簇之间的聚类图,定义不同原始簇的代表之间连通程度为state(a,b),所述的state(a,b)包括三种状态:强连通,弱连通,无连通;所述的a,b均为各自原始簇的代表;S3:根据不同原始簇的代表之间连通程度,找到强连通的分量并进行合并;S4:在合并后的原始簇的节点中选择执行范围查询的节点;S5:执行选择的节点且更新聚类图;S6:对S1中的噪声点进行复核,输出复核的噪声点和聚类好的簇。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811642734.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种自动驾驶模型的训练方法及装置
- 下一篇:一种数据处理与融合方法及其应用