[发明专利]一种数据处理方法及系统有效
申请号: | 201710971837.4 | 申请日: | 2017-10-18 |
公开(公告)号: | CN109684279B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 邓杰 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团公司 |
主分类号: | G06F16/17 | 分类号: | G06F16/17;G06F16/18 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 215163 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 系统 | ||
本发明实施例提供一种数据处理方法及系统,用以解决现有技术中的在对大并发下海量日志数据进行存储时,存储资源的消耗较大的技术问题。其中,方法包括获取多个业务日志文件;其中,每个业务日志文件包括多个业务日志数据,每个业务日志数据包括用于表征业务操作的词项及词项特征信息;对多个业务日志文件进行分析,建立映射文件,映射文件用于指示每个业务日志文件所包括的多个业务日志数据中每个业务日志数据的词项与词项特征信息之间的映射关系;基于映射文件对每个业务日志数据进行数据重组,获得并存储待存储文件数据集合;其中,待存储文件数据集合中的每条文件数据的词项个数小于等于每个业务日志数据的词项个数。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法及系统。
背景技术
在现今的业务支撑领域,众多运营中的业务支撑系统,如客户关系管理(CustomerRelationship Management,CRM)、业务运营支撑系统(Business Operation SupportSystem,BOSS)、经营分析支撑系统(Business Analysis Support System,BASS)等系统,随着业务支撑系统在线上的持续运营,以及业务量的不断增加,业务日志数据慢慢的累积起来,这些海量的数据包含着丰富的信息,对这些信息的提取与分析是运营人员实现对该系统的高效运营与管控的重要保证。传统使用关系型数据库存储业务日志,在系统的业务量或者并发量不大的情况下可以较好的完成对数据的存储与检索;而在面对海量数据或者高并发情况时,不少的系统集成商在积极的探索海量日志数据集中化存储与高可用搜索方案。
目前,主流的日志集中化存储架构模式,通常使用日志集中存储与搜索(Elasticsearch Logstash Kibana stack,ELK)协议栈组件来搭建日志存储系统。围绕着ELK stack协议栈,常用的海量日志存储与搜索方案包括基于ELK日志存储与搜索方案、基于ELK+文件搜集Filebeat存储与搜索方案,以及引入消息队列的ELK+Filebeat日志存储与搜索方案。
上述三种目前常见的海量日志存储与搜索方案,经过分析与实践,在大并发下,存储海量日志时会体现出如下的弊端:
1、在基于ELK日志存储与搜索方案中,日志数据收集需要在服务器端,安装文件监控与传输Logstash-forwarder。然而,经过实践发现,该组件对服务器端存储资源的消耗较大,在系统高并发的情况下,会导致系统资源利用率过高,对应用服务器的存储性能造成较大的影响。
2、基于ELK+Filebeat存储与搜索方案,虽然是对服务器日志收集端高性能消耗做了较大的优化,但由于日志存储Logstash在接受这些海量数据时候,由于需要遍历每条数据,对其进行过滤与格式化,需要一定的计算与存储资源的消耗,因此会导致在高并发下大量的日志数据堆积在Logstash服务器,使得系统性能消耗较大且造成系统吞吐量不高。
3、引入消息队列的ELK+Filebeat日志存储与搜索方案,虽然克服了方案2关于Logstash端不能高效处理并分析大并发下的海量数据而导致的数据堆积的缺陷,但是,由于Logstash端需要对每条日志数据进行过滤与格式化分析,Logstash的filter插件对这些数据进行解析会消耗计算资源,虽然可以通过增加机器性能以及处理的线程数来缓解系统压力,但是随着系统并发量的增加,存储资源消耗较大的缺陷很快就显现出来。
综上可知,现有技术中大都采用增加硬件资源,或者对组件参数进行调优来实现大并发下海量日志数据的存储,均不能从根源上解决在对大并发下海量日志数据进行存储时,存储资源的消耗较大的技术问题。
发明内容
本发明实施例提供一种数据处理方法及系统,用以解决现有技术在对大并发下海量日志数据进行存储时,存储资源的消耗较大的技术问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团公司,未经中移(苏州)软件技术有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710971837.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文件获取方法、装置、终端及存储介质
- 下一篇:日志文件处理方法、装置及系统