[发明专利]一种小文件存储效率的优化方法在审

专利信息
申请号: 201310672912.9 申请日: 2013-12-12
公开(公告)号: CN103678579A 公开(公告)日: 2014-03-26
发明(设计)人: 张立雨 申请(专利权)人: 浪潮电子信息产业股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 250014 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文件 存储 效率 优化 方法
【说明书】:

技术领域

发明涉及计算机应用技术领域,具体的说是一种小文件存储效率的优化方法。

背景技术

HDFS采用主从式架构设计模式(master/slavearchitec时间到re),一个名称节点(NameNode)和若干数据节点(DataNode)构成HDFS集群。HDFS的这种单名称节点的设计极大地简化了文件系统的结构,然而也因此引发了HDFS的小文件存储效率低的问题。因为HDFS中的每个目录和文件的元数据信息都存放在名称节点的内存中,如果系统中存在大量的小文件(指那些比HDFS数据块(默认为64MB)小得多的文件),则无疑会降低整个存储系统的存储效率和存储能力。

在各种存储系统中,存在大量这样的小文件。美国西北太平洋国家实验室2007年的一份研究报告表明,他们系统中有1 200万个文件,其中94%的文件小于64 MB,58%的小于64 kB。在一些具体的科研计算环境中,也存在大量的小文件,例如,在某些生物学计算中可能会产生3 000万个文件,而其平均大小只有190 kB。

解决基于HDFS的存储系统中小文件存储效率问题的主流思想是将小文件合并或组合为大文件,目前主要的方法分为2种,一种是利用Hadoop归档(Hadoop archive,HAR)等技术实现小文件合并的方法,另一种则是针对具体的应用而提出的文件组合方法。

利用HAR技术实现小文件的合并,从而提高了HDFS中元数据的存储效率。结合WebGIS应用,以Hadoop为存储平台开发了HDWebGIS原型系统;结合WebGIS访问模式的特点,将小文件组合为大文件并为其建立全局索引,从而提高了小文件存储效率。将小文件合并到大文件中并结合预取机制来提高系统存储和访问小文件的效率的方法。对分布式存储系统中小文件的并发访问进行了优化。

以上的研究工作都是基于文件的合并或组合来解决小文件存储效率不高的问题,然而还存在以下2个问题:第一,作为一个完整的系统,在提高小文件存储效率的同时,也应该考虑到系统的负载状况,因为不管是文件合并还是文件组合,对HDFS而言都是一个额外的操作;第二,未对小文件合并规模进行研究,即尚未确定多少个小文件合并为一个大文件可以使系统性能达到最优。

发明内容

本发明的技术任务是解决现有技术的不足,提供一种小文件存储效率的优化方法。

本发明的技术方案是按以下方式实现的,该一种小文件存储效率的优化方法,其具体优化步骤为:

一、序列文件合并:所述序列文件是HDFS提供的一种二进制文件,在存储系统中,对二进制文件由小文件合并为大文件,以小文件的索引号为key、内容为value的形式进行合并,合并的同时实现基于数据块的压缩;

二、对小文件存储效率优化:

1)由存储系统为每个用户建立三种队列:第一种为序列文件队列SFQ,用于小文件的合并;第二种为序列文件操作队列SFOQ,用于对合并后小文件的操作;第三种为备用队列BQ,用于操作的小文件数超过第一种或第二种长度的情况;

2)用户将本地的文件上传至云存储服务器;

3)服务器开始对该文件的类型进行判断;

4)如果是小文件,将该文件的索引号放入SFQ中;

5)当SFQ满时,将发送“队列满”信号给控制器,而当定时器到定时点时,将发送“时间到”信号给控制器;

6)接收到“队列满”或者“时间到”信号后,控制器开始读取SFQ的相关信息;

7)对系统负载进行计算,并据此决定是否进行小文件的合并;

8)文件合并后完成小文件与大文件之间的映射。

所述存储系统中采用多叉树的结构来构建文件索引,当用户将文件上传到存储系统后,系统会自动根据用户文件的组织形式建立对应的多叉树索引。

所述步骤5)~步骤8)中的控制器的具体处理逻辑为:

当控制器接收到信号时,首先判断信号类型,如果是“队列满”信号,则调用系统负载预测算法计算系统负载:

如果得到的系统负载低于系统设定的阈值,则开始合并文件,并取消系统中的“时间到”信号;如果系统负载大于系统设定的阈值,则进一步判断BQ的数量:若BQ数量小于某个值,则新建BQ,将SFQ转移到BQ中并推迟合并操作,设定“时间到”信号,若BQ数量大于该某个值,则将BQ中的小文件进行合并,取消系统中的“时间到”信号;

如果接收到的是“时间到”信号,计算系统负载并判断是否大于系统设定的阈值:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310672912.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top