[发明专利]一种海量时间序列数据相似性连接计算方法在审
申请号: | 201811332114.0 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109492028A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 刘文;张土前;王思秀;刘俊霞;付国庆 | 申请(专利权)人: | 新疆工程学院 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 李振瑞 |
地址: | 830031 新疆维吾尔自*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及数据库技术领域,公开了一种在分布式环境下计算海量时间序列数据相似性连接的方法,包括以下步骤:S1、数据预处理,从海量数据集D中随机采样小数据集S;S2、针对采样数据S选取参考点并且建立SJT树,记做SJTS;S3、将SJTS树扩展为一棵完全树SJTC;S4、对完全树SJTC中的叶结点建立分区集合P={G1,G2,…Gi,…Gn};S5、利用分布式计算框架MapReduce计算分区集合P={G1,G2,…Gi,…Gn}中相似性连接的比较数据对,获得海量时间序列数据集D中所有满足阈值的数据对。本发明针对相似性连接计算设计最大的优势在于通过分区信息对海量数据集剪枝,有效降低计算量,提高了计算效率,经过测试,本发明的方法优于Google提出的MAPSS和微软提出的ClusterJoin两种方法。 | ||
搜索关键词: | 时间序列数据 分区集合 海量数据 分布式计算框架 分布式环境 数据库技术 数据预处理 比较数据 采样数据 分区信息 计算效率 随机采样 参考点 计算量 小数据 叶结点 剪枝 测试 | ||
【主权项】:
1.一种海量时间序列数据相似性连接计算方法,其特征在于,包括以下步骤:S1、从海量时间序列数据集D中随机采样小数据量的数据集S;S2、对采样的小数据量数据集S选取参考点并且建立SJT树,记做SJTS,利用SJT树剪枝非必要的相似性连接的比较数据对,基于SJT树,相似性连接的比较数据对包括:SJT树叶结点内部的比较数据对和SJT树叶结点之间的比较数据对;S3、将步骤S2生成的SJTS扩展为一棵完全树SJTC,使海量时间序列数据集D中的所有数据都存储在SJTC中;S4、对完全树SJTC中的叶结点建立分区集合P={G1,G2,…Gi,…Gn},其中Gi为完全树SJTC对应的第i个叶结点集合,1≤i≤n;S5、利用分布式计算框架MapReduce计算分区集合P={G1,G2,…Gi,…Gn}中相似性连接的比较数据对,获得海量时间序列数据集D中所有满足阈值的数据对。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆工程学院,未经新疆工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811332114.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于弱可信数据的跨社群潜在人物关系分析方法
- 下一篇:一种股票信息展示法