[发明专利]分布式日志数据处理方法、装置及系统在审
申请号: | 202010611847.9 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111782473A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 周歆;王炳辉;易辛悦;章磊 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王涛;任默闻 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 日志 数据处理 方法 装置 系统 | ||
本申请实施例提供一种分布式日志数据处理方法、装置及系统,方法包括:接收分布式系统中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中;根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至预设日志管理中心;本申请能够有效提高整个分布式系统中日志数据采集和处理的效率。
技术领域
本申请涉及数据处理领域,具体涉及一种分布式日志数据处理方法、装置及系统。
背景技术
随着后端服务平台的快速发展,在业务量增大的同时,现有技术中应用服务器产生大量的应用日志,通过将全部应用日志数据上送到统一日志中心管理的方式,增加了服务器性能的余量,保证了应用服务器不会在特殊场景下,因为系统资源被日志采集所占用,而导致应用交易异常的问题。
但与此同时,将原始日志数据不进行简单的过滤,全部送往日志中心的做法,会对日志中心造成性能上的瓶颈,并且原始日志数据中并不是所有内容都需要上送至日志中心进行分析处理和查询,由此也降低了日志中心的处理效率。
发明内容
针对现有技术中的问题,本申请提供一种分布式日志数据处理方法、装置及系统,能够有效提高整个分布式系统中日志数据采集和处理的效率。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种分布式日志数据处理方法,包括:
接收分布式系统中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中;
根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至预设日志管理中心。
进一步地,所述对所述日志数据进行数据清洗,包括:
确定所述日志数据中的组件特征信息,其中,所述组件特征信息是所述各应用节点发送所述日志数据时使用的日志采集器生成的;
从所述日志数据中去除所述组件特征信息,得到去除所述组件特征信息后的日志数据。
进一步地,所述对所述日志数据进行数据清洗,包括:
判断所述日志数据中是否包含有与预设噪声字段匹配的噪声数据;
若包含,则从所述日志数据中去除所述噪声数据,得到去除所述噪声数据后的日志数据。
进一步地,在所述对所述日志数据进行数据清洗之前,还包括:
根据所述日志数据中的业务标识,对具有相同所述业务标识的多个所述日志数据进行日志合并处理,得到经过日志合并处理后的日志数据。
第二方面,本申请提供一种分布式日志数据处理装置,包括:
日志数据通道建立模块,用于接收分布式系统中各应用节点发送的日志数据,并根据预设属性标识将所述日志数据保存至对应的临时数据库中;
日志数据前置清洗模块,用于根据所述属性标识从对应的所述临时数据库中获取所述日志数据,并对所述日志数据进行数据清洗,将经过所述数据清洗后的日志数据发送至预设日志管理中心。
进一步地,所述日志数据前置清洗模块包括:
组件特征信息确定单元,用于确定所述日志数据中的组件特征信息,其中,所述组件特征信息是所述各应用节点发送所述日志数据时使用的日志采集器生成的;
组件特征信息清洗单元,用于从所述日志数据中去除所述组件特征信息,得到去除所述组件特征信息后的日志数据。
进一步地,所述日志数据前置清洗模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010611847.9/2.html,转载请声明来源钻瓜专利网。