[发明专利]一种时间序列数据异常检测方法与装置无效
申请号: | 201210421143.0 | 申请日: | 2012-10-29 |
公开(公告)号: | CN102945320A | 公开(公告)日: | 2013-02-27 |
发明(设计)人: | 余宇峰;朱跃龙;万定生;李士进;张建新;杨方 | 申请(专利权)人: | 河海大学;南京河海科技有限公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 时间 序列 数据 异常 检测 方法 装置 | ||
技术领域
本发明属于数据管理及业务支撑领域,涉及信息采集及信息处理过程中的数据质量控制,具体涉及一种实时时间序列异常数据的检测方法及装置。
背景技术
随着互联网为代表的计算机信息技术的高速发展和传感器技术的广泛应用,人们在生产和生活中积累了海量的数据。对这些正呈现爆炸式增长的数据处理己经超出了人们的能力范围。数据挖掘作为一门融合了统计学方法、数据库技术、人工智能网络、可视化方法、高性能计算等学科和领域的新兴技术,能帮助人们及时发掘出有用的信息和丰富的知识,提高系统的预测分析能力和决策支持能力,因而得到了广泛的应用和推广。
异常检测是数据挖掘中的四类知识发现任务之一,其目的在于发现数据集中的小概率事件或模式,即与其它数据行为或模型明显不一致的数据对象(异常点)。
所谓异常(或称孤立点,异常点,下同)是指数据库(集)中与其他数据表现不一致或者大大地偏离其他数据点以至于怀疑它是由不同的机制生成的小部分对象。当信息系统采集的数据用于建模时,系统中存在的异常点不仅无法有效地建模并描述系统,而且会降低数据质量,并对数据分析、管理和决策水平产生不良影响。为了提高信息系统表达的准确性和可靠性,保证系统模型的使用效果,必须在系统建模前对异常数据加以识别并进行相应的处理。
目前,异常检测方法大多建立在统计学的基础上,主要包括基于偏离的方法、基于分布的方法、基于距离的方法和基于密度的方法等,但该类型的方法需要事先知道数据的分布,此外,基于统计的异常检测算法大多只适合于挖掘单变量的数值型数据,对高维、时间序列数据并不适用。而生物学方法、机器学习的方法和基于特征空间的方法等应用于时间序列的异常检测方法仍然处于探索阶段,还有很多不成熟的地方,很多方法适应性不强,且普遍存在明显的缺陷。
因此,需要一种新的时间序列数据异常检测方法以解决上述问题。
发明内容
发明目的:本发明针对现有技术的信息系统中存在的异常数据会降低系统模型的分析精度,不能真实客观的反映系统的本质的缺陷,提供一种改善现有数据分析过程中异常检测效率的时间序列数据异常检测方法。
技术方案:为解决上述技术问题,本发明的时间序列数据异常检测方法采用如下技术方案:
一种时间序列数据异常检测方法,设定时间序列D={d1=(v1,t1),d2=(v2,t2),...dn=(vn,tn)},时间序列数据di=(vi,ti)表示ti时刻的观测值vi,其特征包括以下步骤:
(1)、定义时间序列中数据点di的邻居节点其中,k为数据点di的邻居节点窗口宽度;
(2)、计算数据点di的邻居节点的均值
(3)、分别计算数据点di和邻接点均值之间的绝对误差值数据点di与其邻接点之间的累积变化量ACi;
(4)、设定时间序列数据异常检测阈值τ,分别比较上述计算得到的绝对误差值累积变化量ACi和阈值τ之间的大小关系:如果或ACi>τ,则标记di为异常点,否则,保留di。
有益效果:本发明中提出的时间序列异常检测方法中,数据点异常的判定和该数据点的邻居节点相关,这体现了“局部”的概念,这是它与以往异常检测不同之处,也是优势所在。同时,邻居节点窗口宽度可依据不同时段的具体需求进行动态调整,保证了不同时段情况下的参数局部最优。本发明提出的时间序列异常检测算法能有效检测出时间序列中的异常数据,具有广泛的应用前景。
进一步的,所述k值代表邻居节点窗口宽度,它决定了参与计算均值(或累积变化)涉及的邻居节点个数。k值越大,参与计算的邻居节点越多。为获取变量k最佳取值,令k值范围为3-31,增量为2,即k={3,5,...,31}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学;南京河海科技有限公司,未经河海大学;南京河海科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210421143.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置