[发明专利]一种海量时间序列数据相似性连接计算方法在审

申请号：	201811332114.0	申请日：	2018-11-09
公开（公告）号：	CN109492028A	公开（公告）日：	2019-03-19
发明（设计）人：	刘文;张土前;王思秀;刘俊霞;付国庆	申请（专利权）人：	新疆工程学院
主分类号：	G06F16/2458	分类号：	G06F16/2458
代理公司：	西安铭泽知识产权代理事务所(普通合伙) 61223	代理人：	李振瑞
地址：	830031 新疆维吾尔自***	国省代码：	新疆;65
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	时间序列数据分区集合海量数据分布式计算框架分布式环境数据库技术数据预处理比较数据采样数据分区信息计算效率随机采样参考点计算量小数据叶结点剪枝测试
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种海量时间序列数据相似性连接计算方法，其特征在于，包括以下步骤：

S1、从海量时间序列数据集D中随机采样小数据量的数据集S；

S2、对采样的小数据量数据集S选取参考点并且建立SJT树，记做SJT_S，利用SJT树剪枝非必要的相似性连接的比较数据对，基于SJT树，相似性连接的比较数据对包括：SJT树叶结点内部的比较数据对和SJT树叶结点之间的比较数据对；

S3、将步骤S2生成的SJT_S扩展为一棵完全树SJT_C，使海量时间序列数据集D中的所有数据都存储在SJT_C中；

S4、对完全树SJT_C中的叶结点建立分区集合P＝{G₁,G₂,…G_i,…G_n}，其中G_i为完全树SJT_C对应的第i个叶结点集合，1≤i≤n；

S5、利用分布式计算框架MapReduce计算分区集合P＝{G₁,G₂,…G_i,…G_n}中相似性连接的比较数据对，获得海量时间序列数据集D中所有满足阈值的数据对。

2.如权利要求1所述的海量时间序列数据相似性连接计算方法，其特征在于，所述步骤S2中的对采样数据集S选取参考点及SJT树剪枝的方法包括以下步骤：

S21、根据给定的数据集X＝{x₁，x₂，…，x_i，…，x_n}和参考点r，其中1≤i≤n，计算x_i到参考点r的距离，将计算的所有距离值按照升序排序；

S22、针对任意两个数据x_i和x_j，当x_i和x_j到参考点r的投影距离d(x_i，r)和d(x_j，r)均大于阈值数据ε时，根据三角不等式则得出d(x_i，x_j)＞ε，剪枝掉大量投影距离小于阈值数据ε的计算。

3.如权利要求2所述的海量时间序列数据相似性连接计算方法，其特征在于，所述步骤S21中的参考点为多层，参考点r的选取方法包括以下步骤：

S211、首先在数据集X中随机选择一条数据，然后找到与该条数据最远的数据r₁，并将r₁作为第一个参考点；

S212、其次，找出距离r₁最远的数据r₂，作为第二个参考点，第一个参考点和第二个参考点之间的距离就是数据集X的边界edge；

S213、针对非参考点数据x_i，计算误差error_i：其中edge为数据集X的边界，d(r_k，x_i)为x_i到第k个参考点的距离，选取error_i最小的数据作为x_i的下一个参考点，已经选定参考点的最近数据作为后续参考点；

S214、循环S213的过程，直到参考点数量满足要求。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于新疆工程学院，未经新疆工程学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811332114.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载