[发明专利]一种基于重要点的时间序列固定分段算法在审

专利信息
申请号: 201710462992.3 申请日: 2017-06-19
公开(公告)号: CN107463604A 公开(公告)日: 2017-12-12
发明(设计)人: 孙志伟;董亮亮;马永军 申请(专利权)人: 天津科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 天津盛理知识产权代理有限公司12209 代理人: 王利文
地址: 300222 天津市河*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 要点 时间 序列 固定 分段 算法
【说明书】:

技术领域

发明属于智能信息处理技术领域,尤其是一种基于重要点的时间序列固定分段算法。

背景技术

时间序列是指按照时间先后顺序排列的各个观测记录的有序集合,广泛存在于商业、经济、科学工程和社会科学等领域。近年来,时间序列数据上的数据挖掘研究受到普遍关注,包括关联规则挖掘、相似性查询、模式发现、异常检测等。随着时间的推移,时间序列通常包含大量的数据,如何对这些时间序列数据进行统计和分析,从中发现一些有价值的信息和知识,一直是用户感兴趣的问题。但是由于时间序列数据的海量和复杂的特点,直接在时间序列上进行数据挖掘,不但在储存和计算上要花费高昂代价,而且可能会影响算法的准确性和可靠性。为了提高数据挖掘算法的准确度和有效性,需要首先对时间序列做预处理,希望以一种精简的近似表示来代替原始的时间序列数据。

人们对时间序列数据的近似研究做了大量的研究工作,国内外提出了很多时间序列模式表示的方法,例如:基于频域方法、基于奇异值分解、符号化表示方法以及分段线性表示方法。分段线性表示(Piecewise Linear Representation)方法是通过提取原时间序列上反映序列趋势走向的主要特征点,用连续的、首尾相连的直线段来近似表示原序列,具有简单直观、时间多解析性、数据压缩率高等特点,是一种数据压缩和消除噪声的有效方法。时间序列分段线性表示方法被认为是比较先进的时间序列表示方法,因此对时间序列线性表示的研究具有重要意义。

按照分段方法的不同,基于分段的表示法可分为以下几种:

第一种称为PAA(Piecewise Aggregate Approximation)(分段近似聚合),其通过对时间序列进行等间隔划分,用每一段的平均值来近似描述整个序列,即将给定时间序列转换为只包括K个直线段的近似序列,但是不能控制每一子段和全段的误差。PAA方法在不考虑实际序列形状的情况下,仅仅采用等分的方法,不能很好地保留原始序列的变化趋势。

第二种称为PLR(分段线性表示),将时间序列数据表示为相邻的线段簇,用若干条首尾相邻的直线段来近似代替原有时间序列,间隔并不一定相等。对于每个分段内部,一般采用线性插值或者线性回归的方法拟合数据。此方法又可细分为两种,一种采用拟合误差的方法进行分段,代表人是Keogh。在Keogh的分段表示方法中,分段近似的目标是使原时间序列与其线性近似表示之间的残差平方和最小。这种方法又可以细分为两种:其一使用局部阈值来控制单个分段,让当前子段的误差不超过该局部阈值,其二是使用全局阈值,让所有分段的误差和不超过该阈值。全局阈值这种类型包含3种具有代表意义线性分段算法:即滑动窗口(SW)、自顶向下(TD)、自底向上(BU)。其中,SW支持时间序列的在线分段,但分段效果一般,而且不支持保留分段历史信息以及二次拟合。相比之下,TD和BU算法尽管分段效果较好,但不支持对时间序列进行在线分段,而且算法空间复杂度较高。此外,肖辉提出了一种基于时态边缘算子的时间序列分段算法,詹艳艳提出了一种基于斜率提取边缘点的时间序列分段算法。基于斜率提取边缘点的时间序列分段线性表示方法中提出了基于某点与左右两侧相邻点之间连线的斜率差来进行判断的方法,斜率差大于某个阀值时,即将其加入边缘点的集合。基于时间序列趋势转折点的分段线性表示法将极值点和变化幅度大于某一阀值的点列为转折点。上述度量方法的共同缺陷是需要事先指定一些不容易确定的参数,如斜率的阀值、变化幅度的阀值,并且只考虑了局部的情况,对整体考虑不足。

另外分段线性表示还包括采用寻找重要点的方法,主要是存储对序列走势有重要影响的点。而基于重要点的方法很符合人们的视觉印象,可以保留整个序列中重要的趋势情况,但需要准确对重要点进行定义。周大镯等证明了正交距离和垂直距离的等效性,并提出了基于序列重要点分割算法PLR_SIP(Piecewise Linear Representation Series Importance Point)。但该方法的缺陷在于,无法根据用户的需要选择压缩的程度,因为该方法采用递归调用的方法,一直对最左侧序列进行分解,直到拟合误差小于用户指定的某个值,不能根据用户的需要找出最重要的指定个数的点。

陈然提出的基于重要点的时间序列固定分段数分段算法,采用每一段的拟合误差作为优先级的标准,同时设置了误差阈值作为输入参数,但是误差阈值的参数值不太好估计。

综上所述,现有的时间序列重要点分段算法在拟合误差的准确性和时间效率上都存在很大的提升空间。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津科技大学,未经天津科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710462992.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top