[发明专利]一种基于高速流式处理技术的日志解析方法及系统在审
申请号: | 201911364877.8 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111143314A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 陈奋;徐雄辉;薛世平;陈荣有;李伟彬 | 申请(专利权)人: | 厦门服云信息科技有限公司 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/182;G06F16/2455;G06F8/35 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 福建省厦*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 高速 处理 技术 日志 解析 方法 系统 | ||
1.一种基于高速流式处理技术的日志解析方法,其特征在于,包括以下步骤:在节点底层搭建分布式消息中间件,用于缓存终端设备日志;
配置日志解析模板,通过终端设备IP地址实现解析模板与日志数据相关联;日志数据泛化,具体地,采用SPARK流式批处理,将消息中间件缓存的日志按时间切片封装成RDD(弹性分布式数据集),形成源源不断的实时RDD数据流;通过转换算子操作对实时RDD数据流进行预处理;根据与终端设备IP匹配的解析模板对经过预处理的实时RDD数据进行层级解析和泛化,没有匹配上模板的数据将通过模型识别进行数据分类而实现数据泛化;
日志数据储存,各个节点泛化完的数据将在各自节点上进行日志数据持久化。
2.根据权利要求1所述的方法,其特征在于,所述的在节点配置日志解析模板是在可视化模板配置界面上进行的。
3.根据权利要求1或2所述的方法,其特征在于,模板包含正则表达式匹配与解析、key-value数据格式解析、分隔符解析、数据格式转化、字段名称标准化和数据格式标准化。
4.根据权利要求1所述的方法,其特征在于,所述数据泛化采用GMM模型算法。
5.根据权利要求1所述的方法,其特征在于,消息中间件在缓冲日志时,采用多主题分流策略对日志数据进行负载均衡。
6.一种基于高速流式处理技术的日志解析系统,其特征在于,包括:
日志缓存模块,用于缓冲终端设备日志,具体地,采用在节点底层搭建分布式消息中间件,实现时间可配置的终端设备日志数据缓存;
日志解析模板配置模块,用于配置日志解析模板,通过终端设备IP地址实现解析模板与日志数据相关联;
日志数据泛化模块,用于数据泛化,具体地,采用SPARK流式批处理,将消息中间件缓存的日志按时间切片封装成RDD(弹性分布式数据集),形成源源不断的实时RDD数据流;通过转换算子操作对实时RDD数据流进行预处理;根据与终端设备IP匹配的解析模板对经过预处理的实时RDD数据进行层级解析和泛化,没有匹配上模板的数据将通过模型识别进行数据分类而实现数据泛化;
日志数据存储模块,用于储存日志数据,具体地,各个节点泛化完的数据将在各自节点下进行日志数据持久化。
7.根据权利要求6所述的系统,其特征在于,所述的在节点配置日志解析模板是在可视化模板配置界面上进行的。
8.根据权利要求6或7所述的系统,其特征在于,模板包含正则表达式匹配与解析、key-value数据格式解析、分隔符解析、数据格式转化、字段名称标准化和数据格式标准化。
9.根据权利要求6所述的系统,其特征在于,所述模型识别采用GMM模型识别。
10.根据权利要求6所述的系统,其特征在于,消息中间件在缓冲日志时,采用多主题分流策略对日志数据进行负载均衡。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门服云信息科技有限公司,未经厦门服云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911364877.8/1.html,转载请声明来源钻瓜专利网。