[发明专利]一种基于小波衰减概要树的时间序列数据流聚类方法在审
申请号: | 201710477712.6 | 申请日: | 2017-06-21 |
公开(公告)号: | CN107291897A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 肖亮;郭飞鹏 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天正专利事务所有限公司33201 | 代理人: | 王兵,黄美娟 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 衰减 概要 时间 序列 数据流 方法 | ||
1.一种基于小波衰减概要树的时间序列数据流聚类方法,包括以下步骤:
步骤1,构造基于小波变换的树状衰减概要;
(11)压缩数据节点阈值过滤;假设时间序列是稳定的,将时间序列中不断到来的数据作为第1层,在相同的时间内到来的数据序列中平均由n个数据组成,则这n个数据组成一个数据节点,第1层的数据节点数有其中M为时间序列的总数据个数;
(12)数据预处理;对实时时间序列进行噪声处理,主要是对数据序列进行空缺值处理;假设数据序列的属性个数为M,如果空缺属性个数则认为该条时间序列是噪声,直接过滤;反之,将空缺属性补充为所有该属性所有取值的平均值;
(13)压缩处理;将第1层中每n个数据组成的子序列di进行压缩,形成上一层即第2层中的一个数据节点pi,则di中的重要的概要信息就保存在pi中;同样的方法,随着第1层数据的不断增加,则第2层上合并的数据节点也必然增加,此时从时隔最远的n个数据节点开始进行合并,形成第3层上的1个数据节点;以此类推,数据节点就会不断向上合并,最后就构造成一棵能够存储小波系数的误差树;
具体基于小波变换的树状衰减概要结构以误差树形式来表示;误差树T中的节点wi(i=0,1,…)与小波系数相互对应,叶子节点xi(i=0,1,…)和原始数据相对应;在误差树T和T中的内节点wk中,令:leavesk代表以wk为根节点的子树的所有叶子节点集合,pathk为误差树T中从wk到根的路径上全部的非零系数的集合,r_leavesk代表以wk为根节点的右子树上的所有叶子节点集合,l_leavesk代表以wk为根节点的左子树上的所有叶子节点集合;对k=1,2,…,n-1,w0是全部数据的均值,设rk是r_leavesk中数据的均值,lk是l_leavesk中数据的均值,则从树状衰减概要形成过程中可以得知:对于原始数据xk的重构过程只与pathk上的系数有关,即如果xi∈lleavesj或j=0,则εij=+1,如果xi∈rleavesj,则εij=-1;
(14)小波系数的筛选;本发明按照绝对值大的小波系数对重构时间序列作用也大,以及误差树中离根部越近的小波系数对重构时间序列的作用也越大的筛选原则,运用误差平方和(sum of squared error)sse:来进行小波系数的筛选;为了使得sse最小,必须采用保留绝对值最大的r个小波系数,D和D’为时间序列;
将经过小波变换压缩后的各个数据节点的概要信息表示成的形式,t表示的是在时间序列d中该数据节点中的最后一个数据到达的时刻,n指的是时间序列d中的总的数据个数,为时间序列d中所有数据的均值,τ是用来存储经过对d进行离散小波变换之后得到的最重要的r个小波系数;
步骤2)基于小波衰减概要树的时间序列数据流聚类;
(21)基于小波降维的时间序列相似特征提取;
数据流相似特征提取的主要思想:对于时间序列{x1,x2,…,xm},计算相互之间的相似度若则取其将负相关转变为正相关;然后,根据其相似度的大小判断相关性的高低,以此来进行聚类;
输入:特征流序列x0,相似流序列的集合{x1,x2,…,xm};
输出:处理后流序列的集合;
for each xi∈{x1,x2,…,xm}do
记作:
else记作:
记录和的值;
记录
Return经处理后的流序列}
上述算法是循环对与特征流之间呈现正、负相似关系的每个时间序列进行预处理,重复执行m次;
(22)基于相似特征的聚类判定;
(221)对多个总长度为M的时间序列,分别将其划分成m个等长的子序列,接着对这m个子序列应用基于小波变换的树状衰减概要的数据压缩方法进行降维处理;
(222)对压缩后的时间序列进行相似特征提取;
(223)对处理后的时间序列应用新聚类算法进行聚类分析;
(224)当下一个时间段的多个时间序列到达时,循环重复上述的处理过程,但是时间序列的变化是与时间的改变有着密切的关系,是随时间逐渐改变的,所以相邻两次的聚类结果可能存在一定的相似性,结果不会发生太大的改变;因此每次需要决策聚类结果的时候,简单的操作就是在相邻一次的聚类结果的前提下,再迭代几次该算法便可获得最终的聚类结果;
输入:初始中心C0,时间序列D={x1,x2,…,xm}
输出:聚类结果:C={C0,C1,…,Ck}
开始:
随机选择x1,;
For i=2to m
{取max(distance(x1,xi))的xi作为第二个类中心}
for xi∈D do
计算xi与每个簇中心间的距离,根据距离最近的原则将其归簇;
计算每个簇的均值,确定新中心,更新C0,并随机选出一个最大距离的序列作为参与调整的新中心;
ifGk-1>Gk,get K-1,else get K;
循环直至算出Kopt;
进行K-means算法,直至C不再发生变化,输出结果;
End
在上述算法的执行过程中,使用目标函数来评价每次迭代之后的聚类质量;目标函数中,k为簇的数目,C′i为类别Ci的中心,为每一个时间序列xj与相应的类中心的相关系数;评价聚类质量的标准是目标函数G越大,则聚类的质量效果越好;
选取初始的根据目标函数G,计算和比较将时间序列分为k个簇时,k+1个簇时的聚类效果,根据计算的结果来调整k的取值,直至聚类k簇的质量达到最优,记为Kopt。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710477712.6/1.html,转载请声明来源钻瓜专利网。