[发明专利]一种自适应且分布无关的时间序列异常点检测方法在审
申请号: | 201511029681.5 | 申请日: | 2015-12-31 |
公开(公告)号: | CN105678409A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 郑德权;张姝;孟遥;李风环;赵铁军;朱聪慧;杨沐昀;徐冰;曹海龙 | 申请(专利权)人: | 哈尔滨工业大学;富士通株式会社 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 分布 无关 时间 序列 异常 检测 方法 | ||
技术领域
本发明涉及信息技术领域,尤其涉及一种自适应且分布无关的时间序列异常点检测方法。
背景技术
时间序列通常包含大量的信息,是数据建模和预测的主要依据。异常点检测是非常有用 的数据挖掘工具,它能够发现时间序列数据中的有趣信息,为众多应用提供极其重要的信息。 比如,它可以用来检测网络数据中的入侵、心电图中的心律失常、工业过程中的故障等。本 发明所公开之方法涉及但不限于这些应用领域。异常点检测是数据挖掘领域的一类重要任务, 为众多的应用提供了极其重要的信息。然而,‘异常’至今仍然没有统一的定义,针对不同的 应用,‘异常’的定义是不同的。
本发明中的时间序列X=X1,X2,...,Xn是实数变量X在不同的时间点1,…,n取值的有序序列, 其中n是时间点的个数,Xi是第i个观察值(子序列),时间序列异常点检测的研究对象是子序 列。在进行异常点检测时,首先要确定研究对象的异常度,异常度越高,该研究对象越有可 能是异常点。异常度通常用基于距离或基于密度的方法确定。
如何提高异常点检测的质量是目前迫切需要解决的问题。异常点检测的质量常用下面几 种标准来衡量。这几种标准都是最后计算得到的值越大说明异常点识别的质量越高,反之则 识别质量低。通常根据具体的应用,选用某个或某些评价标准。
1、敏感度或召回率:是正确识别的异常点占所有异常点的比例;
2、特异度或错报率:是正常数据中被错误的识别为异常数据的比例;
3、准确率:是正确识别的异常点占所有识别的异常点的比例;
4、正确率:是正确识别的数据占所有数据的比例;
5、F值:是准确率和召回率之积的两倍除以准确率和召回率之和,是准确率和召回率的 权衡;
6、ROC曲线面积:是通过绘制召回率和错报率的累积分布函数得到的,是召回率和错 报率的权衡。
异常点检测方法主要包括:分类、最近邻技术、聚类、统计方法、信息论、光谱学等。
目前的上述方法通常存在以下问题:
1、训练数据少:基于分类和聚类的方法将检测问题视为分类和聚类问题,基于分类的方 法依赖于训练数据,且不能检测出未知或没有出现过的模式;监督算法和半监督算法也需要 大量的训练数据。
2、需求参数多:尽管聚类能够产生较好的性能,但是在实际应用中,它具有很大的缺陷, 比如对初始化的敏感度,局部最小值的获取,以及聚类参数缺乏先验知识等;统计方法也通 常需要多个参数,这也需要很多的训练语料。
3、控制限确定困难:控制限提供了关于过程行为的信息,但是又不和特定的指标有联系, 这使得需要设定控制限的方法将控制限变成非常重要的辅助手段。基于最近邻技术是非参数 模型,尽管它简单,但是它的缺点是抗噪能力低,完全依赖于现有数据,并且假定已经很好 地定义了类之间的决策边界。
4、数据特征未知:统计方法将给定的数据假定一个统计模型,然后应用统计检验来判断 数据是否服从这个模型;统计方法能够识别未知模式,但是数据的统计特征是未知且多变的, 统计特征不一定和过程特征的特定值相一致。
5、‘异常’本身具有模糊性:这一特点也导致了控制限确定的困难,而基于模糊理论的 方法能够很好地避免控制限的设定,然而模糊规则和隶属函数很难确定,如果信息简单且不 充分,性能会比较差。
发明内容
本发明所述方法,根据统计控制过程,将异常点检测视为一种统计假设检验问题;基于 增强式模糊化过程来解决传统假设检验中数据分布和控制限确定的局限性;模糊集理论能够 为处理过程提供很好的鲁棒性,为‘正常’和‘异常’提供更好的边界特征;引入优化模糊 度问题,优化模糊化过程中的参数,相应参数不再需要预先设定;统计方法能够识别未知模 式,且该方法以无监督的方式实现,解决训练数据的问题,并使得算法具有很好的可移植性 和可扩展性。
本发明为解决现有时间序列数据中存在未知分布、界限控制难、参数需求多、训练数据 少以及‘异常’本身的模糊性的问题,而提出一种自适应且分布无关的时间序列异常点检测 方法。
一种自适应且分布无关的时间序列异常点检测方法,按以下步骤进行:
一、异常点的定义:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学;富士通株式会社,未经哈尔滨工业大学;富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511029681.5/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理