[发明专利]一种文件处理方法及装置有效
申请号: | 201410738371.X | 申请日: | 2014-12-05 |
公开(公告)号: | CN104462349B | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 王少佳;惠润海;宋怀明 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13 |
代理公司: | 北京新知远方知识产权代理事务所(普通合伙) 11397 | 代理人: | 申楠 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 处理 方法 装置 | ||
本发明提供了一种文件处理方法及装置,方法包括:获取多个日志文件的配置信息,配置信息包括日志文件的存储位置和存储级别,存储级别为根据日志文件的生成时间确定;根据存储级别将多个日志文件映射成文件组;当需要对日志文件进行分析时,根据设定的查找时间在不同存储级别的文件组中定位待分析的日志文件,并根据日志文件的存储位置获取待分析的日志文件。采用本发明所提供的技术方案,可以提高日志查找分析的速度,解决传统日志分析技术不能适应大数据日志文件处理的技术问题。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文件处理方法及装置。
背景技术
随着大数据的蓬勃发展,各种大数据处理平台(如Hadoop、Xdata并行数据库系统等等)应运而生、各种大数据处理中心拔地而起。这些系统往往在复杂的集群环境中运行,这些运行中的系统都会生成日志信息,随着时间推移这些日志信息会堆积到一种难以想象的程度。
很多日志文件会存储在不同的节点、不同的文件系统,并在存储时部分日志文件会进行压缩。因此,由于这些日志文件是异构存储的,如何对这些日志文件进行快速统一的分析是迫切需要解决的问题。
而目前普通的日志分析技术往往是对某些日志文件进行文本过滤,这种分析方式存在如下问题:
1)对压缩过的文件,或存储在其它文件系统、其他节点的日志文件无能为力;
2)分析速度较慢,因为过滤过程要读取整个文件,这样也就不能处理较大较多的日志信息。
现有技术不足在于:
传统的日志分析技术不能适应大数据、异构存储的日志文件处理,导致很多有意义的日志信息不得不删除或存储起来但再也没有分析过。
发明内容
本发明实施例提出了一种文件处理方法及装置,解决了传统日志分析技术不能适应大数据日志文件处理的技术问题。
本发明实施例提供了一种文件处理方法,包括如下步骤:
获取多个日志文件的配置信息,该配置信息包括日志文件的存储位置和存储级别,存储级别为根据日志文件的生成时间确定;
根据存储级别将多个日志文件映射成文件组;
当需要对日志文件进行分析时,根据设定的查找时间在不同存储级别的文件组中定位待分析的日志文件,根据日志文件的存储位置获取待分析的日志文件。
本发明实施例提供了一种文件处理装置,包括:
获取模块,用于获取多个日志文件的配置信息,该配置信息包括日志文件的存储位置和存储级别,存储级别为根据日志文件的生成时间确定;
文件组生成模块,用于根据存储级别将多个日志文件映射成文件组;
分析模块,用于当需要对日志文件进行分析时,根据设定的查找时间在不同存储级别的文件组中定位待分析的日志文件,根据日志文件的存储位置获取待分析的日志文件。
本发明实施例所提供的技术方案,通过获取多个日志文件的配置信息并根据存储级别将这些日志文件映射成文件组,可以理解为将多个小文件映射成一个大文件,这样当需要对日志文件进行分析时,就可以根据预先设定的查找时间在不同存储级别的文件组中定位待分析的日志文件,进而根据日志文件的存储位置获取待分析的日志文件,采用本发明实施例所提供的技术方案,在进行日志分析时,不需要读取所有日志文件,大大提高了分析速度。
附图说明
下面将参照附图描述本发明的具体实施例,其中:
图1示出了本发明实施例中文件处理方法实施的流程示意图;
图2示出了本发明实施例中日志文件查找分析的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410738371.X/2.html,转载请声明来源钻瓜专利网。