[发明专利]大规模日志数据的异常检测方法、装置和存储介质在审
申请号: | 202010499572.4 | 申请日: | 2020-06-04 |
公开(公告)号: | CN111782460A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 李颉;徐荣;李德宇;王欢 | 申请(专利权)人: | 昆山伊莱智能软件科技有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F8/658;G06N3/04;G06N3/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 朱远枫 |
地址: | 215300 江苏省苏州市昆山开发*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大规模 日志 数据 异常 检测 方法 装置 存储 介质 | ||
本发明公开了大规模日志数据的异常检测方法、装置和存储介质,包括选定的设定长度的日志序列输入预先构建完成的机器学习预测模型,输出当前位置出现各个日志模板的条件概率;根据各日志模板的条件概率对日志模板进行筛选,得到候选日志模板集合;对于待检测日志进行解析得到其日志模板;判断待检测日志对应的日志模板是否属于候选日志模板集合,若是则判定日志为正常,若为否则判断为日志异常。本发明考虑到大规模日志检测时各个日志出现的概率分布,使得针对大规模日志数据进行异常检测的效率显著提高。
技术领域
本发明属于数据安全检测技术领域,具体涉及大规模日志数据的异常检测方法、装置和存储介质。
背景技术
在Hadoop集群运行过程中会产生大量的日志信息,如业务日志、审计日志等,这些日志信息记录了系统运行状态、安全事件及其内在联系,通过日志可以挖掘出系统运行中包含的安全事件信息。现有的日志异常检测方法有基于规则库、基于数理统计方法、基于机器学习算法以及基于深度学习神经网络等方法。基于规则库方法主要通过规则匹配,优点是准确率较高,缺点方法受限于特定场景,只能针对特定日志类型,并且很难分析出未知安全事件;基于数理统计方法主要通过对实时数据的统计确定正常值范围,优点是可以发现未知安全事件,缺点是设定统计量阈值较难,安全事件类型也难以区别;基于有学习能力的机器学习算法是建立挖掘模型并不断进行迭代和调整,优点是可以减少规则手工编码和经验成分,缺点是算法较复杂,实现难度较高。基于深度学习神经网络的日志异常检测方法利用RNN中的长短期记忆网络来训练日志条目序列,从正常日志执行路径中学习和更新日志模式并标记日志异常,优点是异常检测准确性高,模型可以迭代更新,缺点是构建模型复杂。
基于日志的异常检测技术主要包括如下步骤:日志收集、日志解析、特征抽取、异常检测。基于日志模板的异常检测技术首先对日志进行基本的清洗,然后基于编辑距离求得日志聚类、并形成日志模板,然后分别对日志模板信息和日志中包含的参数向量信息进行日志异常检测。
然而日志异常检测工作中存在诸多困难:1.不同系统的日志结构和语义是完全不同的,一些基于规则库方法主要通过规则匹配,这需要大量的专业知识。然而,这对于实现一个通用日志异常检测系统是无法做到的。我们首先需要实现一套通用的日志解析方法来应对不同结构的日志模式。2.另一个挑战来自于系统的并发性,由于日志实时记录系统当前发生的状态及变化,因此当系统当中存在很多并发执行的线程或作业的时候,这些并发作业产生的日志对于生成模型会产生极大的偏差。3.由于日志中包含大量的信息,融合不同部分信息实现异常检测会有更好的效果,现有的方法仅仅实现利用部分信息,限制了检测到日志异常活动的种类;4.未考虑到大规模日志检测时各个日志出现的概率分布,导致异常检测的效率不高的问题。
发明内容
本发明首先旨在解决目前异常检测未考虑到大规模日志检测时各个日志出现的概率分布,导致异常检测的效率不高的问题。
为实现上述技术目的,本发明采用了以下技术方案。
本发明提供一种大规模日志数据的异常检测方法,包括以下步骤:将选定的设定长度的日志序列输入预先构建完成的机器学习预测模型,输出当前位置出现各个日志模板的条件概率;根据各日志模板的条件概率对日志模板进行筛选,得到候选日志模板集合;
对于待检测日志进行解析得到其日志模板;判断待检测日志对应的日志模板是否属于候选日志模板集合,若是则判定日志为正常,若为否则判断为日志异常。
进一步地,所述机器学习预测模型采用长短期记忆神经网络预测模型,其构建方法包括以下步骤:
对预先收集的原始日志进行解析,获得原始日志的各项参数以及日志模板;选定正确执行的日志对应的日志模板作为训练集对预先构建的长短期记忆神经网络预测模型进行训练,基于当前上下文计算出全部日志模板可能出现的条件概率,输出当前位置出现各个日志模板的条件概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆山伊莱智能软件科技有限公司,未经昆山伊莱智能软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010499572.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置