[发明专利]一种海量时间序列数据相似性连接计算方法在审
申请号: | 201811332114.0 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109492028A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 刘文;张土前;王思秀;刘俊霞;付国庆 | 申请(专利权)人: | 新疆工程学院 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 李振瑞 |
地址: | 830031 新疆维吾尔自*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时间序列数据 分区集合 海量数据 分布式计算框架 分布式环境 数据库技术 数据预处理 比较数据 采样数据 分区信息 计算效率 随机采样 参考点 计算量 小数据 叶结点 剪枝 测试 | ||
本发明涉及数据库技术领域,公开了一种在分布式环境下计算海量时间序列数据相似性连接的方法,包括以下步骤:S1、数据预处理,从海量数据集D中随机采样小数据集S;S2、针对采样数据S选取参考点并且建立SJT树,记做SJTS;S3、将SJTS树扩展为一棵完全树SJTC;S4、对完全树SJTC中的叶结点建立分区集合P={G1,G2,…Gi,…Gn};S5、利用分布式计算框架MapReduce计算分区集合P={G1,G2,…Gi,…Gn}中相似性连接的比较数据对,获得海量时间序列数据集D中所有满足阈值的数据对。本发明针对相似性连接计算设计最大的优势在于通过分区信息对海量数据集剪枝,有效降低计算量,提高了计算效率,经过测试,本发明的方法优于Google提出的MAPSS和微软提出的ClusterJoin两种方法。
技术领域
本发明涉及数据库技术领域,特别涉及一种海量时间序列数据相似性连接计算方法。
背景技术
随着物联网、传感器网络、互联网以及各类智能设备的高速发展,很多行业(如:医疗、网络空间以及各类监测型等应用场景)源源不断地积累了海量的时间序列数据。分析和挖掘时间序列数据意义重大,因为随着时间的推移,时间序列里隐含着大量被测对象随时间变化的规律、特征,通过分析与挖掘算法可以很好的让价值信息呈现出来。
当前,针对海量时间序列数据分析的热点问题之一就是利用分布式存储和计算平台来研究序列的相似性连接问题,它的含义就是在给定的相似性度量函数下(如欧氏距离、闵可夫斯基以及余弦距离等度量函数),在海量时间序列中找出相似距离大于设定阈值的数据对。相似性连接是很多种机器学习、数据分析以及数据挖掘算法的基本技术,而且应用于很多行业。在网络空间大数据分析中,相似性连接技术可以用来分析异常日志、入侵数据包等;在医疗大数据分析与挖掘中,往往被用来分析地方病与特定区域生活习惯的相关关系,也可以用来分析被测肿瘤和已知肿瘤的相似性程度,从而给肿瘤定性;在电商消费行为预测、移动基站数据定位等方面也有广泛应用。上述应用最大的特点就是数据源源不断的产生,数据量越来越大,同时数据的维度、复杂程度也越来越高,单机已经无法进行存储和计算,这对于基于分布式环境的相似性连接技术的扩展性、计算效率是一个很大的挑战。
利用MapReduce等分布式计算框架来计算相似性连接越来越得到研究者的青睐,其关键问题在于如何实现分布式环境不同节点存储的数据均匀,同时又保证节点间数据量的交互最少。但是,先前的研究工作主要都在设计存储和计算方法尽可能地保证分区中数据量均衡,却忽略了数据量的均衡并不能不代表计算量也是均衡的。在MapReduce框架中,虽然PBSM和TOUCH等预测方法以计算量均衡为目标实现分区,却没有考虑Reduce task阶段的精确计算量也很大,从而出现计算瓶颈。谷歌和微软提出了MAPSS和ClusterJoin两种计算方法也只关注分区阶段的计算量问题,而没有考虑分区后精算阶段的计算效率问题。
为了解决上述问题,本发明在分布式环境下的设计了基于SJT树的相似性连接计算方法,本发明提出的索引结构SJT(Similarity Join Tree)以计算量为依据分区,同时利用结点间的位置关系来统计分区的计算量,从而实现在Reduce过程中剪枝精确计算的计算量。本发明设计的SJT树,支持多种度量函数,同时支持高维时间序列数据的相似性连接计算,通过实验测试,本发明方法优于MAPSS和ClusterJoin两种方法。
发明内容
本发明提供一种海量时间序列数据相似性连接计算方法,可以解决现有技术中的上述问题。
本发明提供了一种海量时间序列数据相似性连接计算方法,包括以下步骤:
S1、从海量时间序列数据集D中随机采样小数据量的数据集S;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆工程学院,未经新疆工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811332114.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于弱可信数据的跨社群潜在人物关系分析方法
- 下一篇:一种股票信息展示法