[发明专利]一种海量监测型长时间序列数据相关系数的快速估计方法在审
申请号: | 201810950478.9 | 申请日: | 2018-08-20 |
公开(公告)号: | CN108984797A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 刘文 | 申请(专利权)人: | 新疆工程学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 李振瑞 |
地址: | 830031 新疆维吾尔自*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及数据库技术领域,公开了一种海量监测型长时间序列数据相关系数的快速估计方法,包括以下步骤:S1、将长时间序列集合切分为子序列,将所有子序列分布式地存储在数据库中;S2、通过CCEA算法快速估计两条长时间序列的皮尔森相关系数,首先,在计算节点上计算子序列的均值和方差并将结果传回调度节点N0,然后在N0上利用子序列的均值和方差来估计整个长时间序列的皮尔森相关系数的上下界;S3、当数据量过大,通过ACCEA算法维护多层摘要数据,能够通过迭代的方式快速对长时间序列集合的相关系数进行估计。这种方法,能够对海量监测型长时间序列数据的相关系数快速进行估计。 | ||
搜索关键词: | 时间序列 时间序列数据 快速估计 监测型 子序列 皮尔森相关系数 方差 集合 数据库技术 调度节点 计算节点 算法维护 算子序列 摘要数据 上下界 数据量 迭代 多层 算法 数据库 存储 | ||
【主权项】:
1.一种海量监测型长时间序列数据相关系数的快速估计方法,其特征在于,包括以下步骤:S1、将长时间序列集合切分为子序列,将所有子序列分布式地存储在数据库中;数据库中有L个节点{N1,N2,...,NL},长时间序列S被切分成若干个不相交、不等长的子序列其中子序列Si=(s(i‑1)·w+1,s(i‑1)·w+2,...,si·w),w表示单位时间窗口的分钟或小时;将长时间序列S切分后的所有子序列存储在不同节点上,切分后的子序列Si存储为一条记录,并且被分到若干个数据块Bi中,每个数据块Bi为存储在L个节点{N1,N2,...,NL}中的某一个,如果长时间序列S的子序列Si存储在节点Nj内,则记为Si∈SSj,子序列集合记为SSj,长时间序列S的子序列Si分布在不同的存储节点上;S2、通过CCEA算法快速估计两条长时间序列的皮尔森相关系数,首先,在计算节点上计算子序列的均值和方差并将结果传回调度节点N0,然后在N0上利用子序列的均值和方差来估计整个长时间序列的皮尔森相关系数的上下界;L个节点{N1,N2,...,NL}都具有存储和计算功能,除了这L个节点外,还需要一个查询驱动、调度节点N0,每个计算过程都由一个或多个阶段构成,每个阶段均包括两步:第一步,每个节点Ni分别计算节点内的数据块Bi,得到分段的均值和方差μi和σj,1≤i,j≤N;第二步,将前一阶段计算的结果μi和σj,1≤i,j≤N全部汇聚到N0,由N0进行集中处理,最终估算相关系数的区间;长时间序列X分成X1,X2,X3三个不相交的子序列,长时间序列Y分成Y1,Y2,Y3三个不相交的子序列,X1,Y1,X2,Y2,X3,Y3这六个子序列分布式存储到N1,N2,N3这三个节点上,对于N1,N2,N3每个数据节点,计算子序列的均值和标准差,N1计算和其中w为切分序列的单位1分钟或1小时,xi为切分后的子序列,最后将和的计算结果传到N0,N0根据每个数据节点子序列的均值和标准差估计相关系数的上下界;假设和分别是长时间序列X、Y标准化后的序列,其中则X、Y的相关系数与的欧式距离关系为:因此,将判断ρ(X,Y)≥ε的问题转换为判断EAPCA是针对时间序列近似的表示方法,长时间序列S通过EAPCA算法分成不相交的分段S=(S1,S2,...,Sm),其中分段1≤j≤m,1≤r1<r2<...<rm≤n,分段Sj的均值和标准差来表示EAPCA,S的EAPCA表示为标准化序列和的EAPCA表示:则和的欧式距离的上下界分别为:得出三种判断条件及结果如下:(i)如果的上界估算小于则必然存在ρ(X,Y)>ε;(ii)如果下界估算大于则必然存在ρ(X,Y)<ε;(iii)如果上述两种情况都不成立,则无法判断ρ(X,Y)>ε是否成立;S3、当长时间序列S分段计算的数据量过大时,利用ACCEA算法计算多层摘要数据,简称为ML‑List,通过迭代对长时间序列集合的相关系数进行估计;ML‑List的查询算法简称为ML‑Visiting,ML‑Visiting是递进式的多轮处理算法,ML‑Visiting算法的三个关键步骤是:第一步、获得第一轮的初始分段;第二步、根据分段信息读取数据并对相关系数进行估计和判断;第三步、在当前轮对上一轮的分段进行细化;在第一轮计算过程中,ML‑Visiting通过查询窗口计算获取初始分段,然后根据每个节点的原始数据和摘要数据计算出每个分段的均值和标准差,之后通过CCEA算法对整个长时间序列的相关系数进行估计,如果满足条件(i)或条件(ii),得到估算结果则算法结束;否则,进行新一轮计算,通过对上一轮的分段进行细化,并获取新的分段的均值和标准差,对之前的相关系数估计值进行调整,并继续进行判断;该过程重复直到对相关系数的估计满足条件(i)或(ii),则算法结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆工程学院,未经新疆工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810950478.9/,转载请声明来源钻瓜专利网。
- 上一篇:车辆、车机设备及其实现兴趣点扫描的显示方法
- 下一篇:一种数据处理方法及装置