[发明专利]一种基于分布式文件系统的数据预读装置及其方法在审

专利信息
申请号: 201410108037.6 申请日: 2014-03-21
公开(公告)号: CN103916465A 公开(公告)日: 2014-07-09
发明(设计)人: 张军伟;杨洪章;邵冰清;郑彩平;刘振军 申请(专利权)人: 中国科学院计算技术研究所;天津中科蓝鲸信息技术有限公司
主分类号: H04L29/08 分类号: H04L29/08;G06F17/30
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 祁建国;李岩
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 分布式 文件系统 数据 装置 及其 方法
【说明书】:

技术领域

发明涉及分布式文件系统客户端与服务器端的交互技术,特别涉及一种分布式文件系统在客户端进行小文件之间数据预读的方法和系统。

背景技术

随着信息技术飞速发展,全球数据信息总量迅猛增长,非结构化数据越来越多。据Gartner统计,2010全球数据信息总量达到1.2ZB,并预计以每年至少50%的增长率持续高速增长,其中85%由各种非结构化数据组成,非结构化数据多以文件形式存储在分布式文件系统中。在web2.0、社交网络等新兴应用中,数据信息主要以小文件的形式存在,文件尺寸较小。随着小文件数量越来越多,迫切需要分布式文件系统有效管理海量小文件,提供高性能、低延时的小文件访问服务。

在大规模分布式文件系统中,元数据与数据分离的结构已经成为了一种趋势。元数据服务器负责维护文件系统全局命名空间,管理文件逻辑位置与磁盘物理位置的映射关系,为文件分配物理存储资源,元数据记录在专有的元数据存储设备中。客户端文件数据访问不必通过元数据服务器,而是采用带外方式直接访问专有的数据存储设备,从而获取较高的数据访问性能。上述结构对大文件访问非常有效,大文件数据在专有数据存储设备中,数据分布在存储设备上的空间连续性好,并且大文件大粒度连续数据访问的情况通常较多,可以充分发挥数据存储设备的大粒度顺序访问的性能优势。

然而在海量小文件数据读取访问中,由于数据读取粒度小并且不同小文件之间的数据访问空间连续性差,难以发挥数据存储设备的大粒度顺序访问的性能优势,导致海量小文件的访问性能远远低于大文件的访问性能,性能差距达到10倍以上。

预读是提升小文件读取访问性能的一个主要方法,通过把将要访问的数据预先读取到客户端缓存,后续客户端访问时可以在缓存中获取数据,节省了同步从磁盘读取数据的开销,达到较低的访问延迟。目前的预读算法主要针对单个大文件进行,根据单个文件内历史访问的逻辑位置,预测后续将要访问的逻辑位置,并预读将要访问的逻辑位置的数据。然而,小文件通常一次读取全部文件数据,没有历史访问信息,因此上述预读算法对小文件无效。此外,针对文件内逻辑位置进行预读,没有考虑物理位置读取的空间连续性,对于物理空间连续性较差的文件,不能发挥数据存储设备的连续访问性能优势。

发明内容

本发明所要解决的技术问题在于提供一种基于分布式文件系统的数据预读装置及其方法,以克服现有技术中存在的海量小文件应用场景中分布式文件系统无法有效降低小文件数据读取访问延迟、无法充分发挥数据存储设备大粒度顺序访问性能优势的问题。

为达上述目的,本发明提供了一种基于分布式文件系统的数据预读装置,其特征在于,所述数据预读装置包括:客户端模块、元数据服务器模块和数据存储模块:

所述客户端模块通过访问所述元数据服务器模块获取目录读取扩展授权和小文件布局,根据所述小文件布局将小文件数据和与所述小文件数据空间连续的大粒度数据同时从所述数据存储模块中预读到所述客户端模块的缓存中。

上述基于分布式文件系统的数据预读装置,其特征在于,

所述元数据服务器模块用于进行目录读取扩展授权的管理和小文件布局信息的维护,接收获取目录读取扩展授权和小文件布局的请求,并返回所述目录读取扩展授权和所述小文件布局;

所述数据存储模块用于提供数据存储与访问接口,接收读取特定物理位置的访问请求,并返回数据读取内容;

所述客户端模块用于向所述元数据服务器模块发送获取目录的读取扩展授权的请求,根据获取到的所述目录读取扩展授权,所述客户端模块向所述元数据服务器模块发送获取小文件布局的请求,并根据获取到的所述小文件布局向所述数据存储模块发送数据读取请求,完成所述小文件数据和所述大粒度数据内容读取。

上述基于分布式文件系统的数据预读装置,其特征在于,所述元数据服务器模块还包括:

目录读取扩展授权管理模块:用于接收所述客户端模块发送的所述获取目录读取扩展授权的请求,并向所述客户端授予所述目录读取扩展授权;

文件布局维护模块:用于接收所述客户端发送的小文件布局的请求,并向所述客户端应答记录维护的所述小文件布局。

上述基于分布式文件系统的数据预读装置,其特征在于,所述客户端模块还包括:

目录读取扩展授权获取模块:用于向所述目录读取扩展授权管理模块发送获取目录读取扩展授权的请求,并在获取目录读取授权后进行记录;

文件布局获取模块:用于向所述文件布局维护模块发送获取小文件布局请求,以获取小文件布局,获取所述小文件布局后进行记录;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;天津中科蓝鲸信息技术有限公司,未经中国科学院计算技术研究所;天津中科蓝鲸信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410108037.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top