[发明专利]一种面向大数据环境的元数据组织方法和系统在审

申请号：	201610056156.0	申请日：	2016-01-27
公开（公告）号：	CN105550371A	公开（公告）日：	2016-05-04
发明（设计）人：	李春花;周可;杨勇	申请（专利权）人：	华中科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	华中科技大学专利中心 42201	代理人：	朱仁玲
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向数据环境组织方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于分布式文件系统技术领域，更具体地，涉及一种面向大数据环境的元数据组织方法和系统。

背景技术

随着大数据时代的到来，数据的规模和数量都在不断增长，现有的分布式文件系统管理的元数据规模和复杂性也在不断的增大。最近的研究显示，分布式文件系统管理的元数据将超过十亿，而且元数据操作占整个系统的操作比例的50％-80％。此外，系统中目录包含的文件数量并不均匀，其中90％的目录中包含少于128个文件，而少数目录拥有超过百万的文件。这些特征给大数据环境下的元数据管理带来很大的挑战。

现有的分布文件系统采用了不同的元数据管理方法，例如，NFS，HDFS2 采用了静态子树划分的元数据管理方法，Ceph采用动态子树划分的元数据管理方法，Lustre采用了基于目录划分的哈希方法，GIGA+采用可扩展哈希算法对目录进行分片的方法。综上所述，静态子树划分方法不能适应负载变化，容易出现访问热点的问题，动态子树划分方法由于其适应性和扩展性存在着滞后因素，因而当系统出现访问热点时，其负载比较集中，从而会影响性能。而基于目录划分的可扩展哈希方法则能够以更小的粒度来组织和分布元数据，从而更好的适应系统规模的扩展，但该方法存在重命名操作时会导致元数据的迁移，以及大目录元数据集中存储造成的负载不均衡等问题。GIGA+利用位图缓存文件的索引和映射信息，避免同步开销，提高了元数据的并发访问性能，适合于单目录下大量文件的访问，但该方法每次对目录划分时都会造成原有一半的元数据被迁移，对系统性能造成影响。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种面向大数据环境的元数据组织方法和系统，其目的在于，通过提出一种新的元数据索引构建方法，解决现有方法因重命名操作带来的元数据迁移问题，同时能够快速确定元数据在后端存储集群中位置，并减少索引占用的内存空间；此外，本方法通过提出一种新的元数据分布方法，即保证了元数据的访问局部性，又解决了现有方法中大目录中元数据集中存储造成的负载不均衡的问题，提高了系统的可扩展性。

为实现上述目的，按照本发明的一个方面，提供了一种面向大数据环境的元数据组织方法，包括以下步骤：

(1)客户端接收来自用户的元数据请求，并判断该元数据请求的类型，是文件创建请求，文件查询请求，目录创建请求，目录查询请求，还是文件和目录重命名请求，如果是文件创建请求，则客户端将该文件创建请求发送到索引服务器，并进入步骤(2)，如果是文件查询请求，则客户端将该文件查询请求发送到索引服务器，进入步骤(5)，如果是目录创建请求，则转入步骤(9)，如果是列表目录元数据请求，则转入步骤(12)，如果是文件和目录重命名请求，则转入步骤(15)；

(2)索引服务器根据创建文件请求中待创建文件的绝对路径获取对应文件的父目录的全局ID和分布编码列表，根据父目录的全局ID和待创建文件的文件名得到键值对的键，根据该键保存待创建文件的文件索引信息，并获得用来存储元数据信息的分布编码，其中如果分布编码为新增的或者父目录分布编码列表中存在超过一个分布编码，则使用布隆过滤器和文件的全局ID更新分布编码的位图，将分布编码和分布编码对应的后端存储节点的IP地址和端口号，以及待创建文件的全局ID发送给客户端；

(3)客户端将待创建文件的全局ID、分布编码、以及待创建文件的元数据信息发送到该IP地址和端口号对应的后端存储节点；

(4)后端存储节点根据待创建文件的全局ID以键值对形式保存待创建文件的元数据信息，再将此键值对加入到桶号为分布编码的哈希桶中，并向客户端返回文件元数据创建成功的通知；

(5)索引服务器根据查询文件请求中待查询文件的绝对路径获取对应文件的全局ID，以及对应文件的父目录的分布编码列表，获取存储文件元数据时可能使用的分布编码，再根据可能使用的分布编码和后端存储节点名空间表计算得到对应的后端存储节点IP地址和端口号，并将所有后端存储节点IP地址和端口号信息列表、以及待查询文件的全局ID发送到客户端；

(6)客户端根据返回的IP地址和端口号列表依次将待查询文件的全局 ID发送给后端存储节点；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学，未经华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610056156.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种复杂网络体系下异构安全日志信息的提取与分析方法
下一篇：一种基于垂直搜索的网页排序方法、装置及服务器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向大数据环境的元数据组织方法和系统在审

专利文献下载