[发明专利]一种文件处理方法和装置有效

专利信息
申请号: 201610091248.2 申请日: 2016-02-18
公开(公告)号: CN107092604B 公开(公告)日: 2020-03-20
发明(设计)人: 张琳;陈保符;刘婕 申请(专利权)人: 中国移动通信集团河北有限公司
主分类号: G06F16/13 分类号: G06F16/13;G06F16/182
代理公司: 北京派特恩知识产权代理有限公司 11270 代理人: 李梅香;张颖玲
地址: 050021 *** 国省代码: 河北;13
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文件 处理 方法 装置
【说明书】:

发明实施例公开了一种文件处理方法,包括:获取至少两个文件;在获取的文件满足文件合并条件时,将满足文件合并条件的各个文件进行合并,得出合并文件;将合并文件以BloomMapFile形式进行存储。本发明实施例还公开了一种文件处理装置。

技术领域

本发明涉及数据业务技术,尤其涉及一种文件处理方法和装置。

背景技术

随着互联网技术的高速发展以及数字化信息的不断增加,信息的存储问题已经成为当下最为关注的焦点之一;目前对于这类文件数据的存储主要是通过部署分布式文件系统来进行管理,国内外有多款分布式文件系统,例如Google File System(GFS)、HadoopDistributed File System(HDFS)、Lustre、Fast Distributed File System(FDFS)等。其中,HDFS是Hadoop中最为重要的组件之一,HDFS作为分布式文件系统,其发展速度和应用领域越发受到关注。

文件存储于HDFS必然会产生相应的元数据,现有技术方案均是将元数据存储于Namenode节点,当需要访问储存的文件时Namenode需读取所有的元数据并选出访问文件的元数据信息,从而访问相应文件。

如此,访问储存的文件时,Namenode需读取所有的元数据并选出访问文件的元数据信息,Namenode节点的内存访问压力大,判断小文件是否存在时需扫描Namenode节点的所有元数据,耗时较长,文件读取效率不高。

发明内容

为解决上述技术问题,本发明实施例期望提供一种文件处理方法和装置,使得在访问储存的文件时,缓解Namenode节点的工作压力,同时提高了小文件的处理速度以及存取效率。

本发明实施例提供了一种文件处理方法,该方法包括:

获取至少两个文件;

将满足文件合并条件的各个文件进行合并,得出合并文件;

将合并文件以BloomMapFile形式进行存储。

上述方案中,所述将满足文件合并条件的各个文件进行合并,得出合并文件,包括:对获取的各个文件进行分类;在每个类别的文件中,将容量小于容量阈值的文件标记为对应类别的待合并文件;任意一个类别的各个待合并文件的容量之和达到容量阈值时,利用BloomFilter将对应类别的各个待合并文件合并,得出合并文件。

上述方案中,所述利用BloomFilter实现各个待合并文件的合并,包括:启动MapReduce任务将对应类别的各个待合并文件合并。

上述方案中,在将合并文件以BloomMapFile形式进行存储之后,所述方法还包括:接收文件读取请求;确定所述文件读取请求对应的文件存在时,基于所述文件读取请求读取文件。

上述方案中,确定所述文件读取请求对应的文件不存在时,所述方法还包括:返回读取文件不存在的指示信息。

上述方案中,所述利用BloomFilter将对应类别的各个待合并文件合并,得出合并文件,还包括:获取每个待合并文件的位数组;建立一级索引(key,value),其中,key表示每个待合并文件的位数组,value表示每个待合并文件的内容;

在利用BloomFilter将对应类别的各个待合并文件合并,得出合并文件之后,所述方法还包括:建立二级索引(new_key,(key,value)),new_key表示对应类别的合并文件的位数组,对应类别的合并文件为对应类别的各个待合并文件合并后形成的文件;

在接收文件读取请求之后,所述方法还包括:获取文件读取请求对应的位数组信息,在一级索引中存在匹配所获取的位数组信息的key值时,确定所述文件读取请求对应的文件存在;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团河北有限公司,未经中国移动通信集团河北有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610091248.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top