[发明专利]一种基于特征匹配的日志解析方法及装置在审
申请号: | 202111494887.0 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114138613A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 吴利群;郑冬东;赵华彬 | 申请(专利权)人: | 杭州极盾数字科技有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F16/18 |
代理公司: | 杭州云睿专利代理事务所(普通合伙) 33254 | 代理人: | 张骁敏 |
地址: | 311100 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 匹配 日志 解析 方法 装置 | ||
本发明公开了一种基于特征匹配的日志解析方法及装置,对于一个新的日志源首先取少量样例日志,通过自动匹配的方式,从预先设置的解析模版库中寻找解析模版,如果没有找到匹配的解析模版,则触发一个人机交互模块,通过少量的人机交互就可以自动生成新的日志解析模版,从而解析日志;该方法避免了人工编写正则表达式的繁琐,大大降低了生成日志解析模版的生成难度,从而提升了日志解析平台的易用性和易维护性。
技术领域
本发明涉及计算机信息技术领域,特别涉及一种企业内部网络中的大规模安全设备的日志分析方法及系统。
背景技术
现在操作系统内核、网络移动设备、应用服务等都会产生大量的日志数据,而这些数据大都是非结构化或半结构化的,很难直接理解和应用,只有讲这些数据经过解析、加工转化为结果化数据以后,才能被后续的系统使用和分析。
由于结构化数据通常是以字段为单位的,因此将非结构化数据转为结构化数据的主要工作起始就是从非结构化数据中提取出想要的字段,而目前的提取手段则往往需要手工编写正则表达式,grok表达式等,导致字段解析加工的过程非常繁琐,并且难以掌握。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于特征匹配的日志解析方法及装置,其能够实现不需要人工编写正则表达式进行日志解析,而是通过内置大量的日志解析模版和必要时通过人机交互半自动的生成日志解析模版的方式,大大降低日志解析的门槛,并且提升效率。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种基于特征匹配的日志解析方法,包括以下步骤:
步骤1:设置日志采集方式;
步骤2:设置日志解析模版;
步骤3:日志解析。
优选地,所述设置日志采集方式包含以下步骤:
步骤1.1:设置日志来源的IP和端口,以及通过何种网络协议获取日志数据。
其中,网络协议包括syslog,http,imap等。
优选地,步骤2所述设置日志解析模版,包含以下步骤:
步骤2.1:从数据源获取样例日志;
步骤2.2:从已有的日志解析模板集合中,逐条取得模版,计算与样例日志是否匹配。其中,所述日志解析模板记为T(feature_set,regex),每一个模版的一个特征集合以及一个解析表达式。所述的特征是指日志包含某个字符串或能匹配某一个正则表达式,而解析表达式是指能够从日志中析取出一组或若干组字段名称和字段内容的正则表达式。一旦找到一个匹配的模版或者所有模版都计算完,进入步骤2.3;
步骤2.3:如果找到匹配的解析模版Ti,则设置当前日志类型的解析模版为Ti,结束当前过程;如果没有找到匹配的解析模版,进入步骤2.4;
步骤2.4:通过人机交互的方式,半自动的生成一个日志解析模版Tj,设置当前日志类型的解析模版为Tj;
优选地,步骤2.2所述模版匹配方法,包括:
逐条取得当前模板Ti中包含的特征;
根据当前特征,计算待解析日志是否包含该特征;
当且仅当待解析日志包含特征集合中的所有特征时,则当前模版与待解析日志匹配,否则不匹配。
优选地,所述的日志是否包含某个特征,包含以下两种情况:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州极盾数字科技有限公司,未经杭州极盾数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111494887.0/2.html,转载请声明来源钻瓜专利网。