[发明专利]一种基于分布式文件系统的小文件存储方法和装置在审
申请号: | 201410581517.4 | 申请日: | 2014-10-27 |
公开(公告)号: | CN105630779A | 公开(公告)日: | 2016-06-01 |
发明(设计)人: | 黄学军;王宇;胡景翔 | 申请(专利权)人: | 杭州海康威视系统技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
地址: | 310053 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 文件系统 文件 存储 方法 装置 | ||
技术领域
本发明涉及数据存储技术,特别涉及一种基于分布式文件系统(HDFS,Hadoop DistributedFileSystem)的小文件存储方法和装置。
背景技术
HDFS是一个分布式文件系统,有着高容错性的特点,被设计用来部署在低廉的 硬件上,且能够提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应 用程序。
在HDFS中,每存储一个文件,则需要为其建立并维护专属的元数据信息。
随着现代计算机技术及互联网技术的发展,无论是企业还是个人的数据都呈现迅 速增长之势,相应地,需要存储的数据量越来越多,而文件的大小从KB到MB差异 非常大。
HDFS主要适合存储大文件,在存储小文件时则会存在一定的问题,如:由于需 要维护所存储的每个小文件的元数据信息,那么当所存储的小文件数量很多时,则需 要维护大量的元数据信息,从而需要占用极大的内存空间。
发明内容
有鉴于此,本发明提供了一种基于HDFS的小文件存储方法和装置,能够较好的 节省内存空间。
为了达到上述目的,本发明的技术方案是这样实现的:
一种基于HDFS的小文件存储方法,包括:
当接收到针对任一小文件的存储请求时,为小文件分配一个文件句柄,该文件句 柄由一个索引文件和一个数据文件组成,其中,索引文件中包括一个第一记录区和一 个第二记录区,第一记录区中存储有数据文件的存储路径信息;
将小文件存储到数据文件中,并将小文件对应的索引块信息存储到第二记录区中, 索引块信息中包括:索引块号、小文件在数据文件中的起始偏移位置和小文件的大小。
一种基于HDFS的小文件存储装置,包括:第一处理模块和第二处理模块;
所述第一处理模块,用于当接收到针对任一小文件的存储请求时,为小文件分配 一个文件句柄,该文件句柄由一个索引文件和一个数据文件组成,其中,索引文件中 包括一个第一记录区和一个第二记录区,第一记录区中存储有数据文件的存储路径信 息;
所述第二处理模块,用于将小文件存储到数据文件中,并将小文件对应的索引块 信息存储到第二记录区中,索引块信息中包括:索引块号、小文件在数据文件中的起 始偏移位置和小文件的大小。
可见,本发明所述方案中,可采用将多个小文件合并存储到一个大的数据文件中 的方式,来实现小文件的存储,从而仅需要维护每个数据文件及对应的索引文件的元 数据信息,进而较好的节省了内存空间。
附图说明
图1为本发明基于HDFS的小文件存储方法实施例的流程图。
图2为本发明文件句柄队列对各文件句柄的管理方式示意图。
图3为本发明文件句柄、索引文件和数据文件三者的关系及结构示意图。
具体实施方式
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明 所述方案作进一步的详细说明。
图1为本发明基于HDFS的小文件存储方法实施例的流程图。如图1所示,包括 以下步骤11~12。
步骤11:当接收到针对任一小文件x的存储请求时,为小文件x分配一个文件句 柄,该文件句柄由一个索引文件和一个数据文件组成,其中,索引文件中包括一个第 一记录区和一个第二记录区,第一记录区中存储有数据文件的存储路径信息。
为便于表述,用小文件x来代表任意一个需要进行存储的小文件。
数据文件的存储路径,即指数据文件在HDFS中的存储路径。
步骤12:将小文件x存储到数据文件中,并将小文件x对应的索引块信息存储到 第二记录区中,索引块信息中包括:索引块号、小文件x在数据文件中的起始偏移位 置和小文件x的大小。
以下对上述步骤11和步骤12的具体实现进行详细说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视系统技术有限公司,未经杭州海康威视系统技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410581517.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多孔巢砖立体绿化植被技术
- 下一篇:一种文本相似性的比较方法以及装置