[发明专利]一种基于密度加权集成规则的日志异常检测方法有效

专利信息
申请号: 202110063328.8 申请日: 2021-01-18
公开(公告)号: CN112711665B 公开(公告)日: 2022-04-15
发明(设计)人: 应时;刘祥瑞;王冰明;黄浩 申请(专利权)人: 武汉大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 许莲英
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 密度 加权 集成 规则 日志 异常 检测 方法
【说明书】:

发明提出了一种基于密度加权集成规则的日志异常检测方法。本发明引入多条软件日志,根据软件日志,构建单词频次向量;根据单词频次向量,使用基于改进的谱聚类方法得到正常簇、异常簇,并计算得到正常日志集和异常日志集,构建平衡日志集;基分类器将平衡日志集作为训练集,用训练后的基分类器构建多基分类器,用多基分类器对待分类的样本进行分类,基分类器产生分类概率向量;根据分类概率向量,通过五个新的集成规则,分别得到五个分类结果,从中选择频次最大的分类结果作为最终的分类结果。本发明优点在于,保证了样本的平衡,且考虑了原始数据的分布,新的集成规则还考虑了待分类样本与历史数据之间的关系,提高了分类结果的准确性。

技术领域

本发明属于日志异常检测领域,具体涉及一种基于密度加权集成规则的日志异常检测方法。

背景技术

现代系统正在大规模发展,要么是横向扩展,成为建立在数千台商用机器上的复杂系统(比如Spark);要么是纵向扩展,成为具有数以千计的处理器的超级计算机(比如Blue Gene/L)。这些系统正成为IT行业的核心部分,故障的出现及其对于系统性能和运营成本的影响已经成为研究领域里非常重要的问题。复杂的软件和系统不仅包含更多的BUG,而且难以理解和分析。另外,随着时间流逝,这些系统的质量也在老化。这些问题会导致软件崩溃或系统停机。

日志可用于获取软件信息以检测和定位异常。传统的系统管理员检查系统生成的日志数据,以深入了解系统的行为。然而,由于系统的规模和复杂性的提升,每天都有大量的日志产生。如果问题发生,那么对于操作员来说,通过手动检查大量日志消息来查找系统问题非常耗时。因此,需要一些自动化工具用于日志异常检测的需求在逐渐增强。

在日志数据中,正常日志记录系统或软件的正常状态,异常日志记录系统或软件的异常状态,而描述正常状态的日志数量远大于描述系统异常状态的日志数量,因此不平衡的数据分布是日志数据的一个特征。当今标准机器学习算法都是基于平衡数据的理论,它们在不平衡样本上通常表现得很差。基于传统机器学习算法的分类器通常忽略少数类,因为这些分类算法倾向于最大化整体分类的准确率。因此,它们的准确率对于分类不平衡问题来说不够好。通过合并多基分类器的分类结果,集成学习能解决这个问题。然而,基分类器的每个结果并不都是准确的,因为它仍然在处理不平衡的数据,而这些数据是从原始不平衡数据中按比例抽样的。因此,将一些特别的抽样方法与词袋结合起来解决这个问题,这些抽样方法包括UnderBagging、XGBoost和SMOTE-Bagging。这些集成学习方法使用抽样将不平衡的数据处理成平衡的样本,并且基分类器用于平衡样本,产生多个分类结果。然后,使用特定集成规则来合并这些分类结果。然而,当使用基于集成学习的方法来检测日志数据上的异常时,这里存在两个问题:

不平衡样本处理问题。一般而言,集成学习方法使用Bootstrap来随机抽样和获得平衡数据集,这是一种有放回的抽样方法。它将改变原始数据的分布或者使分类器过拟合。因此,当基分类器用于通过这些抽样方法获得的样本时,依然会存在准确率低的问题。

集成规则问题。有五个传统集成规则,它们是Max Rule,Min Rule,Product Rule,Majority Rule,和Sum Rule。然而,待分类的样本通常与历史数据中特定类的样本最相关,并且这些传统集成规则只合并所有分类结果。如果能考虑待分类样本和历史数据之间的关系,那么就能改进基于集成学习的异常检测的准确率。

发明内容

针对上述研究背景和问题,本发明提出了一种基于密度加权集成规则的日志异常检测方法。

步骤1:引入多条软件日志,将每条软件日志根据分隔符分割解析得到软件单词数据集,将多个软件单词数据集进行求并集处理,进一步通过单词去重复处理得到单词集合,统计单词集合中每个单词在每条日志出现的频次,进一步构建软件日志单词频次向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110063328.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top