[发明专利]一种基于注意力机制的大规模系统日志异常检测方法在审
申请号: | 202111128644.5 | 申请日: | 2021-09-26 |
公开(公告)号: | CN113918367A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 房笑宇;夏彬;骆冰清;韩悦;曹陈涵 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F11/00 | 分类号: | G06F11/00;G06F11/07;G06F11/28;G06N3/04;G06N3/08 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 罗运红 |
地址: | 210046 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 大规模 系统 日志 异常 检测 方法 | ||
本发明公开了一种基于注意力机制的大规模系统日志异常检测方法,属于智能运维领域。包括如下步骤:提取计算机系统产生的日志信息,并对日志信息进行数据预处理,构造日志上下文组合集;将日志上下文组合集输入神经网络模型中,对神经网络模型进行训练;获取待预测的日志信息并进行数据预处理,构造待预测的日志上下文组合集,将待预测的日志上下文组合集输入到训练好的神经网络模型中生成后续子序列事件,将后续子序列事件与真实事件进行对比。本发明通过神经网络模型中判别器和生成器之间的不断交替更新的机制,得到生成拟合真实后续正常事件的模型,进而对比真实后续日志与生成后续正常日志类型是否相同,从而判断系统是否异常。
技术领域
本发明属于智能运维领域,更具体地说,涉及一种基于注意力机制的大规模系统日志异常检测方法。
背景技术
现如今,大规模系统被应用于各行各业中,所能提供的服务也变得多样化,服务的质量极大影响了用户的使用体验。然而,由于计算机软硬件的不稳定,系统在运行过程中会产生各种各样的错误,导致系统宕机。另一方面,现有的网络环境极其复杂,各种新式的针对计算机系统的攻击事件层出不穷,在遭受到外部的攻击时,网络安全员无法采取有效的预防措施,导致系统崩溃。这两种情况都会对服务提供商造成不可估量的损失。越来越多的机构和研究致力于通过计算机系统中现有信息检测系统是否处于异常情况,可以提前采取有效的措施进行规避风险。因此,针对异常检测的研究是十分有必要的。
大规模系统中每天都会产生大量的日志文件,记录系统运行过程中的一些重要事件,追踪和监控计算机的运行状态。通过日志的输出状态来检测系统是否处于异常状态是一种可行的解决方案。然而大型的系统及其底层的机器通常由许多管理员进行监控,但是相较于每日数百万记的日志数量,仅仅通过人力筛选出异常日志是不可行的。现阶段,一些基于机器学习的方法针对某个日志序列所表现出的特征判断该序列是否异常,从而判断系统是否处于异常状态,但是这种粗颗粒度的会话级别检测方法并不能反映出某个具体的日志是否异常,进而无法更加准确的定位系统异常的原因。
异常检测技术广泛应用于一些实际场景中,比如金融欺诈、灾后情况分析、社交媒体事件监测。现阶段存在多种基于机器学习方法进行异常检测的研究,并根据学习类别的不同,主要分为监督学习任务,半监督学习任务,无监督学习任务。监督学习任务中,样本的标签是可用的且在特定的空间中正负样本是可分的。论文《基于决策树的异常检测方法》提出了一种基于决策树的检测方法,利用服务器请求序列检测大规模网络站点的故障,决策树可以同时处理样本的离散属性和连续属性,因此该方法被广泛使用。论文《IBM系统中日志事件异常检测》使用多分类器(比如支持向量机算法)来检测大规模集群中的日志异常。此外,监督学习模型可以快速实现在线检测的目的,但是这种方法非常依赖数据集标签的质量,因此使用场景大大受限。半监督学习算法使用的前提是在特定空间中正样本之间的距离非常紧密,异常样本是远离正常样本群体的。其中最为代表性的是最近邻算法,该算法可以根据评价指标的不同分为使用距离度量的最近邻算法和使用密度度量的最近邻算法。论文《高维数据中寻找离群子空间》提出了一种高维离群子空间检测方法,该方法利用最近邻算法在高维空间中寻找能表示离群样本的最优特征子空间,以此将异常样本划分出去。除此之外,论文《深度日志:基于深度学习的系统日志异常检测方法》提出了基于长短期记忆网络的异常检测框架DeepLog,该框架利用日志键值和参数帮助管理员诊断工作流中的系统错误。然而,在真实的场景中,异常样本往往是比较稀疏且没有标签标记的,因此,无监督学习方法更加适应于这种场景。论文《隔离树》使用了隔离异常样本的概念,并提出了一种隔离森林模型,通过随机选择属性构建森林以达到区分正常样本和异常样本的目的。无监督学习方法虽然并不依赖数据标签,但是却需要较深的专家知识才能解决实际场景中的问题。
上述现有方法仅仅只能解决粗颗粒度的日志异常检测任务,即模型只能检测一段日志序列是否存在异常,无法检测出序列中某个日志是否存在异常。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111128644.5/2.html,转载请声明来源钻瓜专利网。