[发明专利]一种基于多种无监督方法融合的单指标异常检测方法有效
申请号: | 202010200442.6 | 申请日: | 2020-03-20 |
公开(公告)号: | CN111507376B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 方匡南;张庆昭;何佳玉;李泽为 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F18/23 | 分类号: | G06F18/23;G06N3/044;G06N3/0464;G06N3/08 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多种 监督 方法 融合 指标 异常 检测 | ||
1.一种基于多种无监督方法融合的单指标异常检测方法,其特征在于包括以下步骤:
1)提取分析数据:将存储在数据库中的数据,按分钟级取数,并返回所需的数据格式;
2)对步骤1)提取的数据采用无监督方法进行初步把关筛选,从海量的数据中过滤筛选出一批正常数据集输出为正常样本,其余样本输出为疑似异常样本;
所述采用无监督方法进行初步把关筛选,从海量的数据中过滤筛选出一批正常数据集的具体方法为:采用五种无监督方法对数据进行筛选,最终将五种无监督方法都认为是正常的样本输出为正常样本,其余样本输出为疑似异常样本;所述五种无监督方法包括3-sigmma median、多项式回归、孤立森林、指数加权移动平均、holt-winter;所述3-sigmmamedian,设定原始序列是服从正态分布,那么有99.74%的概率认为数据会落在median上下3个标准差以内,假如数据不在这个范围,那么就认为该数据是异常值;所述多项式回归,对一周前同时刻前后三小时、昨天同时刻前后三小时、今天现时刻及前三小时共3R+1个时序数据进行多项式回归,进行当前时刻的预测,将预测值与真实值偏差大于阈值的认为是异常;所述指数加权移动平均、holt-winter这两个方法是对时间序列进行平滑拟合,将拟合值与真实值进行比较,将偏差大于阈值的认为是异常;所述孤立森林是基于树模型的异常检测方法,通过随机构建一棵棵决策树,利用样本落在所有树的深度的平均值来构建统计量,进行异常判断;
3)训练模型:对于步骤2)中识别出的正常样本构建模型,具体方法为:对步骤2)识别的正常数据集,训练两个无监督模型;One class svm是针对单类数据建模,捕捉正常样本的决策边界,从而识别异常;RNN是利用重构的思想,将原始单指标序列经过编码和解码两个过程进行降噪重构,根据重构序列与原始序列的差异,来进行异常的识别和判断;
4)进行模型的评估,具体方法为:对于利用正常样本构建好的模型,需要对模型的异常检测能力进行评估,选择步骤2)中输出的疑似异常样本作为测试集,去评估模型的异常检测能力;由于无监督的预测的效果,得通过与真实的类别作比较才能知道,所以需要人工对疑似异常样本进行打标签处理,然后将两个无监督模型测试结果,与真实打标结果进行比较,输出混淆矩阵,通过查看准确率、查全率、查准率来评判模型的效果;
5)输出最终的模型,部署在线上模块进行实时的异常检测,具体方法为:对步骤4)中的模型,one class svm算法利用网格搜索的方式寻找最优的参数;RNN则选择使用随机梯度下降算法来寻找最优的参数,最终输出最优的模型,并将模型部署在线上,进行实时的异常监控。
2.如权利要求1所述一种基于多种无监督方法融合的单指标异常检测方法,其特征在于在步骤1)中,所述提取分析数据,考虑到时间序列的周期性,提取当前时刻数据,当前时刻及前T小时数据,一天前同时刻及前后T小时数据,一周前同时刻及前后T小时数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010200442.6/1.html,转载请声明来源钻瓜专利网。