[发明专利]基于日志树和解析树的日志事件提取方法及系统在审

申请号：	202110781337.0	申请日：	2021-07-11
公开（公告）号：	CN113626400A	公开（公告）日：	2021-11-09
发明（设计）人：	傅媛媛;徐建	申请（专利权）人：	南京理工大学
主分类号：	G06F16/18	分类号：	G06F16/18;G06F16/14
代理公司：	南京理工大学专利中心 32203	代理人：	陈鹏
地址：	210094 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于日志解析事件提取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于日志树和解析树的日志事件提取方法，其特征在于，包括：

提出并维护一个由正则表达式和启发式规则组成的规则库，抽取小部分日志自动生成日志格式；

基于日志格式在线识别日志为日志头部和日志内容；

基于日志结构信息生成日志树；

搜索解析树，采用最长公共子串和最长公共子向量分别计算日志树与事件树中静态字段与动态参数的相似度；采用聚类技术匹配日志树与事件树，提取事件与对应参数。

2.根据权利要求1所述的基于日志树和解析树的日志事件提取方法，其特征在于，所述的提出并维护一个由正则表达式和启发式规则组成的规则库，抽取小部分日志自动生成日志格式，具体为：采用空格分割字段并对分割后的字段执行对齐操作，根据规则1，使用规则库中的正则表达式替换可识别字段；根据规则2计算列字段数量等于行数量的列复杂度；遍历列字段计算列复杂度，在计算得到列复杂度之后，根据规则3寻找最大的复杂度为0且数值最大的索引index_max；

其中，规则库中的规则和正则表达式如下：

规则1.原始异构日志头部的部分字段，包括日期、时间、等级以及数字，这些字段可基于有限的正则表达式进行定义；

规则2.每一条日志的头部具有相同数量的字段，并且每个字段类型相同；不同日志行对应的日志内容拥有不同的字段数量，每一字段类型并不总是相同；在对齐日志行之后，计算每一列的复杂度；

规则3.日志内容的第一个字段必然出现在复杂度为0的列之后；定义index_i为每一列的索引，搜索复杂度为0且数值最大的索引index_max，日志内容的第一个字段索引即为index_max+1。

3.根据权利要求1所述的基于日志树和解析树的日志事件提取方法，其特征在于，所述的基于日志格式在线识别日志为日志头部和日志内容，具体为：基于空格分割日志获得字段，根据日志格式的字段索引识别日志的每个字段；日志被划分为包含时间戳和其他字段的日志头部以及日志内容。

4.根据权利要求1所述的基于日志树和解析树的日志事件提取方法，其特征在于，基于日志结构信息生成日志树，从左向右遍历日志，当日志的第一个字段包含‘:’或被‘[]’包含时，将第一个字段记为根节点，同时也是该日志的指示字段；然后根据‘,’和空格将日志划分为多个字段，每个字段从右向左匹配‘:’，根据连续的‘:’创建子树，‘:’左边的字段作为‘:’右边字段的父节点。

5.根据权利要求1所述的基于日志树和解析树的日志事件提取方法，其特征在于，基于解析树匹配日志树并更新事件树；搜索解析树的指示字段，搜索到不同指示字段后创建新的指示字段节点及其日志簇子节点，否则搜索所有候选日志簇，计算日志树和事件树的相似度Sim，经比较之后选取最大相似度对应的日志簇；计算得到最大相似度Sim_max之后，与相似度阈值St进行比较；当Sim_max小于等于St时，在当前指示节点下创建新的日志簇；当Sim_max大于St时，日志树匹配成功，将日志树与事件树进行合并；当日志树无法与任何已有事件树匹配时，将日志树直接转化为事件树。

6.一种基于日志树和解析树的日志事件提取系统，其特征在于，包括：

第一模块，用于提出并维护一个由正则表达式和启发式规则组成的规则库，抽取小部分日志自动生成日志格式；

第二模块，基于日志格式在线识别日志为日志头部和日志内容；

第三模块，基于日志结构信息生成日志树；

第四模块，搜索解析树，采用最长公共子串和最长公共子向量分别计算日志树与事件树中静态字段与动态参数的相似度；采用聚类技术匹配日志树与事件树，提取事件与对应参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京理工大学，未经南京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110781337.0/1.html，转载请声明来源钻瓜专利网。