[发明专利]一种面向大数据环境的元数据组织方法和系统在审
申请号: | 201610056156.0 | 申请日: | 2016-01-27 |
公开(公告)号: | CN105550371A | 公开(公告)日: | 2016-05-04 |
发明(设计)人: | 李春花;周可;杨勇 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 朱仁玲 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 环境 组织 方法 系统 | ||
技术领域
本发明属于分布式文件系统技术领域,更具体地,涉及一种面向大数 据环境的元数据组织方法和系统。
背景技术
随着大数据时代的到来,数据的规模和数量都在不断增长,现有的分 布式文件系统管理的元数据规模和复杂性也在不断的增大。最近的研究显 示,分布式文件系统管理的元数据将超过十亿,而且元数据操作占整个系 统的操作比例的50%-80%。此外,系统中目录包含的文件数量并不均匀,其 中90%的目录中包含少于128个文件,而少数目录拥有超过百万的文件。这 些特征给大数据环境下的元数据管理带来很大的挑战。
现有的分布文件系统采用了不同的元数据管理方法,例如,NFS,HDFS2 采用了静态子树划分的元数据管理方法,Ceph采用动态子树划分的元数据 管理方法,Lustre采用了基于目录划分的哈希方法,GIGA+采用可扩展哈希 算法对目录进行分片的方法。综上所述,静态子树划分方法不能适应负载 变化,容易出现访问热点的问题,动态子树划分方法由于其适应性和扩展 性存在着滞后因素,因而当系统出现访问热点时,其负载比较集中,从而 会影响性能。而基于目录划分的可扩展哈希方法则能够以更小的粒度来组 织和分布元数据,从而更好的适应系统规模的扩展,但该方法存在重命名 操作时会导致元数据的迁移,以及大目录元数据集中存储造成的负载不均 衡等问题。GIGA+利用位图缓存文件的索引和映射信息,避免同步开销,提 高了元数据的并发访问性能,适合于单目录下大量文件的访问,但该方法 每次对目录划分时都会造成原有一半的元数据被迁移,对系统性能造成影 响。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种面向大数据 环境的元数据组织方法和系统,其目的在于,通过提出一种新的元数据索 引构建方法,解决现有方法因重命名操作带来的元数据迁移问题,同时能 够快速确定元数据在后端存储集群中位置,并减少索引占用的内存空间; 此外,本方法通过提出一种新的元数据分布方法,即保证了元数据的访问 局部性,又解决了现有方法中大目录中元数据集中存储造成的负载不均衡 的问题,提高了系统的可扩展性。
为实现上述目的,按照本发明的一个方面,提供了一种面向大数据环 境的元数据组织方法,包括以下步骤:
(1)客户端接收来自用户的元数据请求,并判断该元数据请求的类型, 是文件创建请求,文件查询请求,目录创建请求,目录查询请求,还是文 件和目录重命名请求,如果是文件创建请求,则客户端将该文件创建请求 发送到索引服务器,并进入步骤(2),如果是文件查询请求,则客户端将 该文件查询请求发送到索引服务器,进入步骤(5),如果是目录创建请求, 则转入步骤(9),如果是列表目录元数据请求,则转入步骤(12),如果是 文件和目录重命名请求,则转入步骤(15);
(2)索引服务器根据创建文件请求中待创建文件的绝对路径获取对应 文件的父目录的全局ID和分布编码列表,根据父目录的全局ID和待创建 文件的文件名得到键值对的键,根据该键保存待创建文件的文件索引信息, 并获得用来存储元数据信息的分布编码,其中如果分布编码为新增的或者 父目录分布编码列表中存在超过一个分布编码,则使用布隆过滤器和文件 的全局ID更新分布编码的位图,将分布编码和分布编码对应的后端存储节 点的IP地址和端口号,以及待创建文件的全局ID发送给客户端;
(3)客户端将待创建文件的全局ID、分布编码、以及待创建文件的元 数据信息发送到该IP地址和端口号对应的后端存储节点;
(4)后端存储节点根据待创建文件的全局ID以键值对形式保存待创 建文件的元数据信息,再将此键值对加入到桶号为分布编码的哈希桶中, 并向客户端返回文件元数据创建成功的通知;
(5)索引服务器根据查询文件请求中待查询文件的绝对路径获取对应 文件的全局ID,以及对应文件的父目录的分布编码列表,获取存储文件元 数据时可能使用的分布编码,再根据可能使用的分布编码和后端存储节点 名空间表计算得到对应的后端存储节点IP地址和端口号,并将所有后端存 储节点IP地址和端口号信息列表、以及待查询文件的全局ID发送到客户 端;
(6)客户端根据返回的IP地址和端口号列表依次将待查询文件的全局 ID发送给后端存储节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610056156.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置