[发明专利]一种海量时间序列数据相似性连接计算方法在审
申请号: | 201811332114.0 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109492028A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 刘文;张土前;王思秀;刘俊霞;付国庆 | 申请(专利权)人: | 新疆工程学院 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 李振瑞 |
地址: | 830031 新疆维吾尔自*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时间序列数据 分区集合 海量数据 分布式计算框架 分布式环境 数据库技术 数据预处理 比较数据 采样数据 分区信息 计算效率 随机采样 参考点 计算量 小数据 叶结点 剪枝 测试 | ||
1.一种海量时间序列数据相似性连接计算方法,其特征在于,包括以下步骤:
S1、从海量时间序列数据集D中随机采样小数据量的数据集S;
S2、对采样的小数据量数据集S选取参考点并且建立SJT树,记做SJTS,利用SJT树剪枝非必要的相似性连接的比较数据对,基于SJT树,相似性连接的比较数据对包括:SJT树叶结点内部的比较数据对和SJT树叶结点之间的比较数据对;
S3、将步骤S2生成的SJTS扩展为一棵完全树SJTC,使海量时间序列数据集D中的所有数据都存储在SJTC中;
S4、对完全树SJTC中的叶结点建立分区集合P={G1,G2,…Gi,…Gn},其中Gi为完全树SJTC对应的第i个叶结点集合,1≤i≤n;
S5、利用分布式计算框架MapReduce计算分区集合P={G1,G2,…Gi,…Gn}中相似性连接的比较数据对,获得海量时间序列数据集D中所有满足阈值的数据对。
2.如权利要求1所述的海量时间序列数据相似性连接计算方法,其特征在于,所述步骤S2中的对采样数据集S选取参考点及SJT树剪枝的方法包括以下步骤:
S21、根据给定的数据集X={x1,x2,…,xi,…,xn}和参考点r,其中1≤i≤n,计算xi到参考点r的距离,将计算的所有距离值按照升序排序;
S22、针对任意两个数据xi和xj,当xi和xj到参考点r的投影距离d(xi,r)和d(xj,r)均大于阈值数据ε时,根据三角不等式则得出d(xi,xj)>ε,剪枝掉大量投影距离小于阈值数据ε的计算。
3.如权利要求2所述的海量时间序列数据相似性连接计算方法,其特征在于,所述步骤S21中的参考点为多层,参考点r的选取方法包括以下步骤:
S211、首先在数据集X中随机选择一条数据,然后找到与该条数据最远的数据r1,并将r1作为第一个参考点;
S212、其次,找出距离r1最远的数据r2,作为第二个参考点,第一个参考点和第二个参考点之间的距离就是数据集X的边界edge;
S213、针对非参考点数据xi,计算误差errori:其中edge为数据集X的边界,d(rk,xi)为xi到第k个参考点的距离,选取errori最小的数据作为xi的下一个参考点,已经选定参考点的最近数据作为后续参考点;
S214、循环S213的过程,直到参考点数量满足要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆工程学院,未经新疆工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811332114.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于弱可信数据的跨社群潜在人物关系分析方法
- 下一篇:一种股票信息展示法