[发明专利]基于日志树和解析树的日志事件提取方法及系统在审
申请号: | 202110781337.0 | 申请日: | 2021-07-11 |
公开(公告)号: | CN113626400A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 傅媛媛;徐建 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/14 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 日志 解析 事件 提取 方法 系统 | ||
本发明公开了一种基于日志树和解析树的日志事件提取方法及系统,该方法分为预处理和日志内容解析两个步骤,具体包括:提出并维护一个由正则表达式和启发式规则组成的规则库,抽取小部分日志自动生成日志格式;基于日志格式在线识别日志为日志头部和日志内容;搜索解析树,采用最长公共子串和最长公共子向量分别计算日志树与事件树中静态字段与动态参数的相似度;采用聚类技术匹配日志树与事件树,提取事件与对应参数。本发明为了应对日志内容的复杂性,改进在线事件提取方法中的预处理与日志内容解析步骤。减少人工识别日志格式的工作量,改善已有方法难以识别包含不定数量参数事件的问题,更准确地提取日志事件。
技术领域
本发明属于日志分析事件提取领域,特别是一种基于日志树和解析树的日志事件提取方法及系统。
背景技术
随着当今互联网技术的兴起,计算和通信基础设施规模的扩大,大规模分布式系统应运而生。日志是由程序中嵌入的打印输出代码所产生的文本数据,记录系统当前的运行状态和行为模式。在系统开发与维护过程中,领域专家通过分析日志实现对系统的实时监控、异常检测和故障预测及诊断。日志规模快速扩大,仅凭人工分析日志难以高效识别快速更新的系统中新产生的异常,有效地排除系统故障。因此,日志分析逐步由离线模式转变为在线模式,由依赖领域专家的人工分析转变为自动分析。
事件提取是日志分析的一个重要环节,提取日志事件和原始日志中的参数,为日志下游分析提供结构化数据和关键信息。原始日志包括时间戳、等级等固定字段的日志头部和描述系统当前状态行为的日志内容。事件提取的主要对象为日志内容。在正式解析日志内容之前,预处理过滤字段值多变但字段类型较为固定的日志头部,减少其对事件提取结果的干扰。常见的预处理基于人工定义的日志格式划分日志头部和日志内容,识别头部各个字段。但大规模分布式系统常对应多个异构日志,重新定义不同日志格式将消耗大量人工成本。
日志内容结构松散而复杂,常规的分类或是聚类技术难以直接对其进行提取。传统的日志事件提取方法基于领域知识提取日志事件,难以快速应对多变的异构日志。最新的研究多采用启发式规则和聚类相结合的模式改进事件提取方法。一个事件对应的一组日志具有相同的静态字段和类似的日志结构。启发式规则通常基于对大量日志结构的观察。因此事件提取方法常采用一种或多种启发式规则划分日志,准确地将结构相似的日志划分到同一日志组中,有效地提高算法效率。在划分完成后,对各个日志组进行聚类操作,经相似度计算最终获得符合条件的日志簇与对应的日志事件。这种启发式规则与聚类结合的模式将事件提取过程抽象为一棵解析树。树的内部节点通常是不同启发式规则划分日志组的体现,如日志字段数量、日志某个字段值等等。叶子节点则保存经聚类获得的事件提取的最终目标,即表示为事件的日志簇。通过搜索解析树,将每一条经预处理的日志匹配到对应的日志簇中。然而,已有事件提取方法针对如日志字段数量的全局结构信息或是日志字段类别这类局部内容信息制定启发式规则,忽略了字段间隐藏的内部结构信息。在日志匹配到日志簇后,对比日志和事件的各个字段,不同值的字段直接以通配符替代,提取值为参数,从而更新事件,这种方法同样忽视了原始日志的内部结构信息,易导致静态字段被错误提取为参数,事件粒度过粗。
发明内容
本发明目的在于提供一种能够挖掘日志内部结构信息的基于日志树和解析树的日志事件提取方法及系统,准确提取包含不定数量参数的事件和原始日志行中的参数。
实现本发明目的的技术解决方案为:一种基于日志树和解析树的日志事件提取方法,包括:
提出并维护一个由正则表达式和启发式规则组成的规则库,抽取小部分日志自动生成日志格式;
基于日志格式在线识别日志为日志头部和日志内容;
基于日志结构信息生成日志树;
搜索解析树,采用最长公共子串和最长公共子向量分别计算日志树与事件树中静态字段与动态参数的相似度;采用聚类技术匹配日志树与事件树,提取事件与对应参数。
一种基于日志树和解析树的日志事件提取系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110781337.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种市政工程用焊接装置
- 下一篇:基于敏感子图的安卓恶意软件检测方法及系统