[发明专利]一种基于分类的异常检测方法和系统有效
申请号: | 202010531591.0 | 申请日: | 2020-06-11 |
公开(公告)号: | CN113806523B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 赵静;龙春;万巍;魏金侠;杜冠瑶;杨帆 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京知舟专利事务所(普通合伙) 11550 | 代理人: | 郭韫 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分类 异常 检测 方法 系统 | ||
1.一种基于分类的异常检测方法,其特征在于,所述方法包括如下步骤:
对正常日志数据和异常日志数据分别进行预处理;
分别提取经过预处理的正常日志数据和异常日志数据的特征,在预设时间窗口内对得到的正常日志特征和异常日志特征进行数据挖掘,得到正常频繁项集和异常频繁项集,构建正常行为模型和异常行为模型;
对待检测日志数据进行挖掘,获得频繁项集,并将频繁项集与正常行为模型和异常行为模型进行比较,找出异常;
所述数据挖掘为利用长周期的频繁项集挖掘算法进行数据挖掘,
具体包括如下步骤:
将提取的日志数据特征作为候选集,扫描一遍候选集,找到支持率大于等于λn,n-1·s长度为1的所有模式;
连接这些模式,找到支持率大于等于λn,n-2·s产生长度为2的模式的候选集,以此类推,在第i次迭代中产生一个由长度为i的模式组成的候选集Ui,其中,这些模式满足支持率大于等于λn,n-i·s;
在i+1次迭代中,将候选集Ui中的模式连接产生i+1的模式的候选集Ci+1;在Ci+1的模式中找到支持率大于等于λn,n-(i+1)·s的模式,形成候选集Ui+1,继续迭代,直到候选集为空,停止迭代,最终形成的候选集即为频繁项集;
其中λn,n-m·s为各次迭代内m的模式对应的支持度阈值,并按照公式(一)计算;
n为日志数据特征序列S中频繁项集内模式的估算值;m为频繁项集子集的模式数值,m=1、2...i、i+1...,m<n,Nn为在序列S中长度为n的偏移序列的个数;Nm为在序列S中长度为m的偏移序列的个数;ρ为频率阈值;M和N分别表示每个特征序列间隔的最小间隔和最大间隔;
当迭代后产生的候选集不为空,产生长度为n+1的模式的候选集时,利用APRIORI算法挖掘频繁项集;
所述将频繁项集与正常行为模型和异常行为模型进行比较,找出异常包括如下步骤:
利用正常行为模型内的频繁项集作为学习数据,训练分类器;
利用训练好的分类器对待测日志数据的频繁项集进行分类;
获得与正常行为模型内的频繁项集不一致的频繁项集,并与异常行为模型内的频繁项集进行相似度对比,找出属于异常行为模型的频繁项集。
2.如权利要求1所述的基于分类的异常检测方法,其特征在于,所述对正常日志数据和异常日志数据分别进行预处理包括如下步骤:
对正常日志数据和异常日志数据分别进行清洗;
对经过清洗后的正常日志数据和异常日志数据进行数据集成;
对经过数据集成的正常日志数据和异常日志数据进行压缩处理。
3.一种基于分类的异常检测系统,其特征在于,所述异常检测系统包括:
数据预处理模块,被配置为对正常日志数据和异常日志数据分别进行预处理;
模型构建模块,被配置为分别提取经过预处理的正常日志数据和异常日志数据的特征,在预设时间窗口内对得到的正常日志特征和异常日志特征进行数据挖掘,得到正常频繁项集和异常频繁项集,构建正常行为模型和异常行为模型;
异常检测模块,被配置为对待检测日志数据进行挖掘,获得频繁项集,并将频繁项集与正常行为模型和异常行为模型进行比较,
找出异常;
所述数据挖掘为利用长周期的频繁项集挖掘算法进行数据挖掘,具体包括如下步骤:
将提取的日志数据特征作为候选集,扫描一遍候选集,找到支持率大于等于λn,n-1·s长度为1的所有模式;
连接这些模式,找到支持率大于等于λn,n-2·s产生长度为2的模式的候选集,以此类推,在第i次迭代中产生一个由长度为i的模式组成的候选集Ui,其中,这些模式满足支持率大于等于λn,n-i·s;
在i+1次迭代中,将候选集Ui中的模式连接产生i+1的模式的候选集Ci+1;在Ci+1的模式中找到支持率大于等于λn,-(i+1)·s的模式,形成候选集Ui+1,继续迭代,直到候选集为空,停止迭代,
最终形成的候选集即为频繁项集;
其中λn,n-m·s为各次迭代内m的模式对应的支持度阈值,并按照公式(一)计算;
n为日志数据特征序列S中频繁项集内模式的估算值;m为频繁项集子集的模式数值,m=1、2...i、i+1...,m<n,Nn为在序列S中长度为n的偏移序列的个数;Nm为在序列S中长度为m的偏移序列的个数;ρ为频率阈值;M和N分别表示每个特征序列间隔的最小间隔和最大间隔;
当迭代后产生的候选集不为空,产生长度为n+1的模式的候选集时,利用APRIORI算法挖掘频繁项集;
所述将频繁项集与正常行为模型和异常行为模型进行比较,找出异常包括如下步骤:
利用正常行为模型内的频繁项集作为学习数据,训练分类器;
利用训练好的分类器对待测日志数据的频繁项集进行分类;
获得与正常行为模型内的频繁项集不一致的频繁项集,并与异常行为模型内的频繁项集进行相似度对比,找出属于异常行为模型的频繁项集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010531591.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:骨质疏松症的血液生物标志物及其应用
- 下一篇:一种赖脯胰岛素衍生物及其应用