[发明专利]一种面向大数据环境的元数据组织方法和系统在审

专利信息
申请号: 201610056156.0 申请日: 2016-01-27
公开(公告)号: CN105550371A 公开(公告)日: 2016-05-04
发明(设计)人: 李春花;周可;杨勇 申请(专利权)人: 华中科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 华中科技大学专利中心 42201 代理人: 朱仁玲
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 数据 环境 组织 方法 系统
【说明书】:

技术领域

发明属于分布式文件系统技术领域,更具体地,涉及一种面向大数 据环境的元数据组织方法和系统。

背景技术

随着大数据时代的到来,数据的规模和数量都在不断增长,现有的分 布式文件系统管理的元数据规模和复杂性也在不断的增大。最近的研究显 示,分布式文件系统管理的元数据将超过十亿,而且元数据操作占整个系 统的操作比例的50%-80%。此外,系统中目录包含的文件数量并不均匀,其 中90%的目录中包含少于128个文件,而少数目录拥有超过百万的文件。这 些特征给大数据环境下的元数据管理带来很大的挑战。

现有的分布文件系统采用了不同的元数据管理方法,例如,NFS,HDFS2 采用了静态子树划分的元数据管理方法,Ceph采用动态子树划分的元数据 管理方法,Lustre采用了基于目录划分的哈希方法,GIGA+采用可扩展哈希 算法对目录进行分片的方法。综上所述,静态子树划分方法不能适应负载 变化,容易出现访问热点的问题,动态子树划分方法由于其适应性和扩展 性存在着滞后因素,因而当系统出现访问热点时,其负载比较集中,从而 会影响性能。而基于目录划分的可扩展哈希方法则能够以更小的粒度来组 织和分布元数据,从而更好的适应系统规模的扩展,但该方法存在重命名 操作时会导致元数据的迁移,以及大目录元数据集中存储造成的负载不均 衡等问题。GIGA+利用位图缓存文件的索引和映射信息,避免同步开销,提 高了元数据的并发访问性能,适合于单目录下大量文件的访问,但该方法 每次对目录划分时都会造成原有一半的元数据被迁移,对系统性能造成影 响。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种面向大数据 环境的元数据组织方法和系统,其目的在于,通过提出一种新的元数据索 引构建方法,解决现有方法因重命名操作带来的元数据迁移问题,同时能 够快速确定元数据在后端存储集群中位置,并减少索引占用的内存空间; 此外,本方法通过提出一种新的元数据分布方法,即保证了元数据的访问 局部性,又解决了现有方法中大目录中元数据集中存储造成的负载不均衡 的问题,提高了系统的可扩展性。

为实现上述目的,按照本发明的一个方面,提供了一种面向大数据环 境的元数据组织方法,包括以下步骤:

(1)客户端接收来自用户的元数据请求,并判断该元数据请求的类型, 是文件创建请求,文件查询请求,目录创建请求,目录查询请求,还是文 件和目录重命名请求,如果是文件创建请求,则客户端将该文件创建请求 发送到索引服务器,并进入步骤(2),如果是文件查询请求,则客户端将 该文件查询请求发送到索引服务器,进入步骤(5),如果是目录创建请求, 则转入步骤(9),如果是列表目录元数据请求,则转入步骤(12),如果是 文件和目录重命名请求,则转入步骤(15);

(2)索引服务器根据创建文件请求中待创建文件的绝对路径获取对应 文件的父目录的全局ID和分布编码列表,根据父目录的全局ID和待创建 文件的文件名得到键值对的键,根据该键保存待创建文件的文件索引信息, 并获得用来存储元数据信息的分布编码,其中如果分布编码为新增的或者 父目录分布编码列表中存在超过一个分布编码,则使用布隆过滤器和文件 的全局ID更新分布编码的位图,将分布编码和分布编码对应的后端存储节 点的IP地址和端口号,以及待创建文件的全局ID发送给客户端;

(3)客户端将待创建文件的全局ID、分布编码、以及待创建文件的元 数据信息发送到该IP地址和端口号对应的后端存储节点;

(4)后端存储节点根据待创建文件的全局ID以键值对形式保存待创 建文件的元数据信息,再将此键值对加入到桶号为分布编码的哈希桶中, 并向客户端返回文件元数据创建成功的通知;

(5)索引服务器根据查询文件请求中待查询文件的绝对路径获取对应 文件的全局ID,以及对应文件的父目录的分布编码列表,获取存储文件元 数据时可能使用的分布编码,再根据可能使用的分布编码和后端存储节点 名空间表计算得到对应的后端存储节点IP地址和端口号,并将所有后端存 储节点IP地址和端口号信息列表、以及待查询文件的全局ID发送到客户 端;

(6)客户端根据返回的IP地址和端口号列表依次将待查询文件的全局 ID发送给后端存储节点;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610056156.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top