[发明专利]一种基于小波衰减概要树的时间序列数据流聚类方法在审

申请号：	201710477712.6	申请日：	2017-06-21
公开（公告）号：	CN107291897A	公开（公告）日：	2017-10-24
发明（设计）人：	肖亮;郭飞鹏	申请（专利权）人：	浙江工商大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州天正专利事务所有限公司33201	代理人：	王兵,黄美娟
地址：	310018 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于衰减概要时间序列数据流方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于小波衰减概要树的时间序列数据流聚类方法，包括以下步骤：

步骤1，构造基于小波变换的树状衰减概要；

(11)压缩数据节点阈值过滤；假设时间序列是稳定的，将时间序列中不断到来的数据作为第1层，在相同的时间内到来的数据序列中平均由n个数据组成，则这n个数据组成一个数据节点，第1层的数据节点数有其中M为时间序列的总数据个数；

(12)数据预处理；对实时时间序列进行噪声处理，主要是对数据序列进行空缺值处理；假设数据序列的属性个数为M，如果空缺属性个数则认为该条时间序列是噪声，直接过滤；反之，将空缺属性补充为所有该属性所有取值的平均值；

(13)压缩处理；将第1层中每n个数据组成的子序列d_i进行压缩，形成上一层即第2层中的一个数据节点p_i，则d_i中的重要的概要信息就保存在p_i中；同样的方法，随着第1层数据的不断增加，则第2层上合并的数据节点也必然增加，此时从时隔最远的n个数据节点开始进行合并，形成第3层上的1个数据节点；以此类推，数据节点就会不断向上合并，最后就构造成一棵能够存储小波系数的误差树；

具体基于小波变换的树状衰减概要结构以误差树形式来表示；误差树T中的节点w_{i(i＝0,1,…)}与小波系数相互对应，叶子节点x_{i(i＝0,1,…)}和原始数据相对应；在误差树T和T中的内节点w_k中，令：leaves_k代表以w_k为根节点的子树的所有叶子节点集合，path_k为误差树T中从w_k到根的路径上全部的非零系数的集合，r_leaves_k代表以w_k为根节点的右子树上的所有叶子节点集合，l_leaves_k代表以w_k为根节点的左子树上的所有叶子节点集合；对k＝1,2,…,n-1,w₀是全部数据的均值，设r_k是r_leaves_k中数据的均值，l_k是l_leaves_k中数据的均值，则从树状衰减概要形成过程中可以得知：对于原始数据x_k的重构过程只与path_k上的系数有关，即如果x_i∈lleaves_j或j＝0，则ε_ij＝+1，如果x_i∈rleaves_j，则ε_ij＝-1；

(14)小波系数的筛选；本发明按照绝对值大的小波系数对重构时间序列作用也大，以及误差树中离根部越近的小波系数对重构时间序列的作用也越大的筛选原则，运用误差平方和(sum of squared error)sse：来进行小波系数的筛选；为了使得sse最小，必须采用保留绝对值最大的r个小波系数，D和D’为时间序列；

将经过小波变换压缩后的各个数据节点的概要信息表示成的形式，t表示的是在时间序列d中该数据节点中的最后一个数据到达的时刻，n指的是时间序列d中的总的数据个数，为时间序列d中所有数据的均值，τ是用来存储经过对d进行离散小波变换之后得到的最重要的r个小波系数；

步骤2)基于小波衰减概要树的时间序列数据流聚类；

(21)基于小波降维的时间序列相似特征提取；

数据流相似特征提取的主要思想：对于时间序列{x₁,x₂,…,x_m}，计算相互之间的相似度若则取其将负相关转变为正相关；然后，根据其相似度的大小判断相关性的高低，以此来进行聚类；

输入：特征流序列x₀，相似流序列的集合{x₁,x₂,…,x_m}；

输出：处理后流序列的集合；

for each x_i∈{x₁,x₂,…,x_m}do

if-1<ρxix0<0]]>

记作：

else记作：

记录和的值；

记录

Return经处理后的流序列}

上述算法是循环对与特征流之间呈现正、负相似关系的每个时间序列进行预处理，重复执行m次；

(22)基于相似特征的聚类判定；

(221)对多个总长度为M的时间序列，分别将其划分成m个等长的子序列，接着对这m个子序列应用基于小波变换的树状衰减概要的数据压缩方法进行降维处理；

(222)对压缩后的时间序列进行相似特征提取；

(223)对处理后的时间序列应用新聚类算法进行聚类分析；

(224)当下一个时间段的多个时间序列到达时，循环重复上述的处理过程，但是时间序列的变化是与时间的改变有着密切的关系，是随时间逐渐改变的，所以相邻两次的聚类结果可能存在一定的相似性，结果不会发生太大的改变；因此每次需要决策聚类结果的时候，简单的操作就是在相邻一次的聚类结果的前提下，再迭代几次该算法便可获得最终的聚类结果；

输入：初始中心C₀，时间序列D＝{x₁,x₂,…,x_m}

输出：聚类结果：C＝{C₀,C₁,…,C_k}

开始：

随机选择x_1,；

For i＝2to m

{取max(distance(x₁,x_i))的x_i作为第二个类中心}

for x_i∈D do

计算x_i与每个簇中心间的距离，根据距离最近的原则将其归簇；

计算每个簇的均值，确定新中心，更新C₀，并随机选出一个最大距离的序列作为参与调整的新中心；

ifG_k-1>G_k，get K-1，else get K；

循环直至算出K_opt；

进行K-means算法，直至C不再发生变化，输出结果；