[发明专利]一种基于特征匹配的日志解析方法及装置在审
申请号: | 202111494887.0 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114138613A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 吴利群;郑冬东;赵华彬 | 申请(专利权)人: | 杭州极盾数字科技有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F16/18 |
代理公司: | 杭州云睿专利代理事务所(普通合伙) 33254 | 代理人: | 张骁敏 |
地址: | 311100 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 匹配 日志 解析 方法 装置 | ||
1.一种基于特征匹配的日志解析方法,其特征在于,包括:
步骤1:设置数据源,一个数据源对应一个日志来源;
步骤2:设置日志解析模版;
步骤3:日志解析。
2.根据权利要求1所述的日志解析方法,其特征在于,所述设置数据源包含以下过程:
设置日志来源的IP和端口,以及通过何种网络协议获取日志数据;其中,网络协议包括syslog,http,imap等。
3.根据权利要求1所述的日志解析方法,其特征在于,步骤2所述设置日志解析模版,包含以下步骤:
步骤2.1:从数据源获取样例日志:
步骤2.2:从已有的日志解析模板集合中,逐条取得模版,计算与样例日志是否匹配;其中,所述日志解析模板记为T(feature_set,regex),每一个模版包含一个特征集合以及一个值析取表达式;所述的特征是指日志包含某个字符串或能匹配某一个正则表达式,而值析取表达式是指能够从日志中析取出一组或若干组字段名称和字段内容的正则表达式,一旦找到一个匹配的模版或者所有模版都计算完,进入步骤2.3;
步骤2.3:如果找到匹配的解析模版Ti,则设置当前数据源的解析模版为Ti,结束当前过程;如果没有找到匹配的解析模版,进入步骤2.4;
步骤2.4:通过人机交互的方式,半自动的生成一个日志解析模版Tj,设置当前数据源的解析模版为Tj。
4.根据权利要求3所述的模版匹配方法,其特征在于,具体过程包含:
逐条取得当前模板Ti中包含的特征;
根据当前特征,计算样例日志是否包含该特征;
当且仅当样例日志包含特征集合中的所有特征时,则当前模版与样例日志匹配,否则不匹配。
5.根据权利要求4所述的日志是否包含某个特征,其特征在于,包括以下两种情况:
情况1:当前特征是指日志中是否包含某个字符串,记为contains$param,其中contains表示特征类型为包含字符串,$param表示一个字符串参数,那么当样例日志中包含字符串$param时,就是包含该特征,否则就是不包含;
情况2:当前特征是指日志是否能匹配某个正则表达式,记为match$regex,其中match表示特征类型为匹配正则表达式,$regex表示正则表达式参数,那么当样例日志能匹配正则表达式$reg时,就是包含该特征,否则就是不包含。
6.根据权利要求3所述的通过人机交互的方式,半自动的生成一个日志解析模版的方法,其特征在于,包括以下步骤:
步骤2.4.1:显示待解析日志样例;
步骤2.4.2:用户在录入界面上录入日志样例中需要提取的字段名称和字段内容以及字段内容所在的位置;
步骤2.4.3:用户在录入界面上录入日志需包含的特征;
步骤2.4.4:提交后,生成新的日志解析模板。
7.根据权利要求1所述的日志解析方法,其特征在于,步骤3日志解析的过程如下:
持续不断的从数据源获取日志,对每一条日志,采用步骤2中设置的解析模版,提取字段,字段包括字段名和字段内容。
8.一种基于特征匹配的日志解析装置,其特征在于,该解析装置包括:一个或多个处理器;存储装置,用于存储一个或多个计算机程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如权利要求1-7中任一所述的日志解析方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州极盾数字科技有限公司,未经杭州极盾数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111494887.0/1.html,转载请声明来源钻瓜专利网。