[发明专利]一种基于小波衰减概要树的时间序列数据流聚类方法在审
申请号: | 201710477712.6 | 申请日: | 2017-06-21 |
公开(公告)号: | CN107291897A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 肖亮;郭飞鹏 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天正专利事务所有限公司33201 | 代理人: | 王兵,黄美娟 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 衰减 概要 时间 序列 数据流 方法 | ||
技术领域
本发明涉及数据流挖掘技术领域,具体涉及一种基于小波衰减概要树的时间序列数据流聚类方法。特别适用于智慧商业、智慧金融应用中用户和资源数量庞大,通过云计算、电子标签等进行多维度时间序列数据流存储并进行压缩与聚类。
技术背景
随着物联网技术、云计算、移动互联技术、电子标签技术等的飞跃发展,基于零售业宏观环境科技化需求的日益增长,数据流挖掘技术已经成为降低运营成本,提高运作效率的重要手段。然而,由于智慧零售中会连续不断产生大量随时间演变的序列型数据,构成包含用户、商品、交易等信息的时间序列数据流。上述数据流的海量、异构、多维、动态等特性造成信息处理困难,聚类等大数据挖掘效率受到很大的影响。同时,智慧零售企业信息化系统中的数据变化是动态的,更新速度快、数据量大、种类繁多,要把所有的实时动态变化数据全部以数据原型永久保存不仅对存储介质、存储技术、存储形式有很高的要求,而且也不符合实际的要求。因此,需要探索高效的数据流压缩技术来解决“维数灾难”问题,并采用数据流聚类方法实现“智慧零售”的目标。
聚类是分析这类时间序列数据流的一种有力方法。但数据流长度无限、随时间演变和大数据量的特点,使得传统的聚类方法无法直接应用。同时,动态地维护数据流的概要结构是数据流挖掘等处理工作的基础,而离散小波变换是一种应用得较多的数据流概要构造方法。虽然目前主流的小波变换可以完整地重构出原始时间序列,但是没有达到实现数据的压缩以及减少存储空间的目的。而且,在智慧商业数据流应用场景,数据的影响是随时间衰减(time-decaying)的。因此,在数据流的处理中应充分考虑这种衰减特性,反映到数据流的概要结构的构造中,应体现在两方面:一是要求所构造的概要结构能反映数据的衰减程度,不应将久远的数据和最近的数据同等重要地反映到概要结构中;二是利用数据流的这种特点,可以用更精简的概要信息来近似数据流。因此,要从根本上解决上述问题,实现海量动态数据流的挖掘,就需要利用数据流的衰减特性,应用小波变换和聚类方法。
发明内容
为了克服目前已有方法在存储和挖掘具有动态性、非线性、高维性、复杂性、冗余性等多种特征的时间序列数据流的不足,本发明提供一种能反映数据流衰减特性的小波概要结构和高效的数据流知识挖掘的基于小波衰减概要树的时间序列数据流聚类方法。
本发明解决其技术问题所采用的技术方案是:
一种基于小波衰减概要树的时间序列数据流聚类方法,包括以下步骤:
步骤1,构造基于小波变换的树状衰减概要;
(11)压缩数据节点阈值过滤。假设时间序列是稳定的,将时间序列中不断到来的数据作为第1层,在相同的时间内到来的数据序列中平均由n个数据组成,则这n个数据组成一个数据节点,第1层的数据节点数有个,其中m为时间序列的总数据个数。
(12)数据预处理。对实时时间序列进行噪声处理,主要是对数据序列进行空缺值处理。假设数据序列的属性个数为m,如果空缺属性个数则认为该条时间序列是噪声,直接过滤。反之,将空缺属性补充为所有该属性所有取值的平均值。
(13)压缩处理。将第1层中每n个数据组成的子序列di进行压缩,形成上一层即第2层中的一个数据节点pi,则di中的重要的概要信息就保存在pi中。同样的方法,随着第1层数据的不断增加,则第2层上合并的数据节点也必然增加,此时从时隔最远的n个数据节点开始进行合并,形成第3层上的1个数据节点。以此类推,数据节点就会不断向上合并,最后就构造成一棵能够存储小波系数的误差树。本发明利用数据流的衰减特性来对数据流进行压缩,建立一个比整个数据流的数据规模小得多的概要数据结构来保存数据流的主要特征。
(14)小波系数的筛选。本发明按照绝对值大的小波系数对重构时间序列作用也大,以及误差树中离根部越近的小波系数对重构时间序列的作用也越大的筛选原则,运用误差平方和sse:来进行小波系数的筛选。为了使得sse最小,必须采用保留绝对值最大的r个小波系数。
设时间序列D=(P1,P2,…,Pi,…Pm),其中pi表示第i个数据节点,总共有m个数据节点。对于任意i=1,2,…,m的取值,数据节点pi的相对重构误差都满足Ewi≤ε,且时间序列的基于衰减函数的相对重构误差Ew≤ε。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710477712.6/2.html,转载请声明来源钻瓜专利网。