[发明专利]一种时间序列变长模体挖掘方法有效
申请号: | 201910496208.X | 申请日: | 2019-06-10 |
公开(公告)号: | CN110362606B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 王继民;朱旭;朱晓晓;季昌政;李家欢 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 梁耀文 |
地址: | 211100 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 时间 序列 变长 挖掘 方法 | ||
1.一种时间序列变长模体挖掘方法,其特征在于,包括如下步骤:
(1)模体提取:以模体挖掘算法STOMP作为子程序,提取所有可能长度的模体;具体步骤如下:
(1.1)STOMP算法提取定长模体,具体步骤如下:
STOMP算法以给定长度为m的滑动窗口,计算时间序列T中每个子序列的平均值μ和标准差σ;计算每一个查询子序列Q和T中所有子序列的点积,再计算查询子序列和T中所有子序列的z-归一化欧式距离,得到距离矩阵Distance Profile;选取距离矩阵中的每一列的最小值组成矩阵向量Matrix Profile P和矩阵向量索引Matrix Profile Index I,MatrixProfile P表示为(P1,P2,...,Ps,...,Pn-m+1),其中n表示时间序列长度,Ps表示第s个子序列和其最相似的子序列之间的距离,(Ps)min对应的一对子序列即为模长为m的模体;使用z-归一化欧氏距离作为距离度量,z-归一化欧氏距离Dxy公式如下:
其中,x,y分别为时间序列T中长度为l的时间序列子序列,xk表示x中的第k个元素,yk表示y中的第k个元素,μx,μy分别表示x和y的均值,σx,σy分别为x和y的标准差;
(1.2)以STOMP作为子程序并迭代,结合增量距离的下界距离计算加速策略,提取所有可能长度的模体,具体步骤如下:
在已知模长为m的矩阵向量P,求模长m+1的矩阵向量时,使用下界距离公式求得模长为m+1的下界距离,剔除P中z-归一化欧氏距离大于该下界距离的子序列对,在剩下的子序列对中,利用增量计算重用长度m的子序列间的距离来计算长度m+1的子序列距离,加快模体提取速度;使用增量距离的下界距离计算加速策略,加速提取所有可能长度的模体;下界距离dLB2公式如下:
其中,z=maxs(ts-μs-j+1,j-1)/σs-j+1,j-1;d为模长为j-1的模体的子序列之间的z-归一化欧式距离;
(2)模体分组:采用模体重叠判断条件和长度相似性判断条件对步骤(1)所得模体进行模体分组;
(3)模体分组等价类划分:采用模体分组重叠条件对步骤(2)产生的模体分组进行等价类划分;
(4)变长模体提取:提取步骤(3)等价类中的模体代表,输出变长模体集合。
2.根据权利要求1所述的一种时间序列变长模体挖掘方法,其特征在于,所述步骤(2)中模体分组的具体步骤如下:将满足模体重叠条件的两个模体置入相同模体分组中,反之创建新的模体分组,并将其中未分组的一个模体作为首个元素存储到其中;对同一个分组中的模体,使用长度相似性条件,剔除过短模体。
3.根据权利要求1所述的一种时间序列变长模体挖掘方法,其特征在于,所述步骤(3)中模体分组等价类划分的具体步骤如下:不同模体分组中可能存在子序列相同或者相似的情况,通过引入模体分组重叠条件,将存在该情况的这些模体分组置入同一个等价类中。
4.根据权利要求1所述的一种时间序列变长模体挖掘方法,其特征在于,所述步骤(4)中变长模体提取的具体步骤如下:提取模体分组等价类中每个模体分组中z-归一化欧氏距离最小的模体作为模体分组代表,并将这些模体分组代表按照z-归一化欧氏距离正序排列,选择中间位置模体代表的z-归一化欧氏距离作为距离最大值,删除z-归一化欧氏距离大于最大距离的模体代表;最终输出每个模体分组等价类中长度最长的模体代表的集合即为时间序列的变长模体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910496208.X/1.html,转载请声明来源钻瓜专利网。