[发明专利]一种基于时序密度聚类的大规模数据群组搜索方法在审
申请号: | 201811642734.4 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109711478A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 姚嘉豪 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/901 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 群组 大规模数据 时序 密度聚类 搜索 预处理 采集 数据密集型 高能物理 范围查询 关键问题 合并节点 节点关系 节点执行 连通关系 数据查询 搜索效率 簇节点 贡献度 聚类图 通信量 迭代 对线 构建 跨域 算法 访问 网络 保证 发现 | ||
1.一种基于时序密度聚类的大规模数据群组搜索方法,其特征在于,包括以下步骤:
S1:根据给定的节点,定义节点的三种初始状态和原始簇;所述的初始状态包括初始态、未执行态、已执行态;所述的原始簇是已执行的核心点和已执行的核心点的已知的密度相连的邻居节点的集合;
S2:根据原始簇的相互关系,构建出原始簇之间的聚类图,定义不同原始簇的代表之间连通程度为state(a,b),所述的state(a,b)包括三种状态:强连通,弱连通,无连通;所述的a,b均为各自原始簇的代表;
S3:根据不同原始簇的代表之间连通程度,找到强连通的分量并进行合并;
S4:在合并后的原始簇的节点中选择执行范围查询的节点;
S5:执行选择的节点且更新聚类图;
S6:对S1中的噪声点进行复核,输出复核的噪声点和聚类好的簇。
2.根据权利要求1所述的大规模数据群组搜索方法,其特征在于,所述的S1包括以下内容:
通过随机选择初始态的节点执行范围查询,内容如下:
若选择的节点的邻居节点数少于μ,则选择的节点被标记为已执行过的噪声点并存入噪声序列L中;
若选择的节点邻居节点数少于μ,则选择的节点会被标记为已执行过的核心点,处于选择的节点邻域内的其他节点标记为未执行的边界点,且核心点邻域内的其他节点中若存在已执行过的噪声点,则噪声点更新为已执行过的边界点;
上述过程不停执行直至所有的初始态的节点都被完成范围查询的操作。
3.根据权利要求1或2所述的大规模数据群组搜索方法,其特征在于,所述的S2包括以下内容:
所述的强连通为原始簇a与原始簇b密度相连;
所述的弱连通态为原始簇a与原始簇b中结点集存在交集;
其余状态定义为原始簇a与原始簇b无连通关系。
4.根据权利要求3所述的大规模数据群组搜索方法,其特征在于,所述的S3包括以下内容:
基于S2得到的各个原始簇的代表之间的连通程度,找出state(a,b)为强连通状态的节点,将上述节点的实时状态记录于另一图,定义为聚类图;把处于强连通状态的节点所代表的簇合并,定义为合并后的原始簇。
5.根据权利要求4所述的大规模数据群组搜索方法,其特征在于,所述的S4包括以下内容:
在聚类图中合并后的原始簇中的所有处于未执行态的节点进行重要性评估,计算出每个未执行态的节点的重要性并对其进行排序,从重要性最高的节点开始执行范围查询;
其中,在t时刻,节点的统计量通过下式进行表达:
其中,所述的n(a)是原始簇a中未执行节点的总数,所述的np(a)是原始簇a节点的总数,所述的n是所有节点的总数;
在t时刻,节点的度通过下式进行表达:
d(a)=∑state(a,b)=弱s(a)+∑state(a,b)=无s(a)
在t时刻,节点的重要性通过下式进行表达:
其中,所述的p(a)是原始簇a,所述的ne(a)是a的簇内邻居节点的总数。
6.根据权利要求1、2、4或5所述的大规模数据群组搜索方法,其特征在于,所述的S5包括以下内容:
若查询到原始簇内存在未执行的边界点,则把未执行的边界点归并到原始簇内;否则,定义为未执行的核心点;同时根据节点的执行状态,循环更新聚类图内的节点状态直至算法收敛。
7.根据权利要求6所述的大规模数据群组搜索方法,其特征在于,所述的算法收敛的标志为:聚类图内所有节点的边的state(a,b)为强连通状态,则定义算法收敛。
8.根据权利要求1、2、4、5或7所述的大规模数据群组搜索方法,其特征在于,所述的S6包括以下内容:
对噪声序列L中存在的所有节点进行扫描,检测节点是否存在于聚类图中,若存在,则将上述的节点更改为边界点;若不存在,则标记为噪声点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811642734.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动驾驶模型的训练方法及装置
- 下一篇:一种数据处理与融合方法及其应用