[发明专利]分布式文件系统中的去重复有效
申请号: | 201180071613.9 | 申请日: | 2011-06-14 |
公开(公告)号: | CN103620591A | 公开(公告)日: | 2014-03-05 |
发明(设计)人: | M.R.沃特金斯;B.祖克曼;O.Y.巴特纳 | 申请(专利权)人: | 惠普发展公司;有限责任合伙企业 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 张涛;马永利 |
地址: | 美国德*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 文件系统 中的 重复 | ||
背景技术
计算机网络可能包括被用于在网络上代表计算机来存储和检索数据的存储系统。在一些存储系统中,特别是在大规模的存储系统(例如,那些采用分布式分段的文件系统)中,常见的是一定的数据项被存储在存储系统中的多个地方。例如,当两个或更多个文件具有一些共同的数据时,或者特定的数据集在给定的文件内出现在多个地方的情况下,可能发生数据重复。在另一例子中,如果存储系统被用于备份来自具有共同的文件的若干个计算机的数据,则可能发生数据重复。因此,存储系统可能包括“去重复”数据的能力,该能力是识别并移除重复数据的能力。
附图说明
关于下面的图来描述本发明的一些实施例:
图1是根据示例实现的文件系统的框图;
图2是示出根据示例实现的在分布式文件系统中去重复的方法的流程图;
图3是示出根据示例实现的在索引节点当中分配对键类别的控制的方法的流程图;
图4是描绘根据示例实现的索引操作的框图;
图5是描绘根据示例实现的代表性索引操作的框图;
图6是描绘根据示例实现的在分布式文件系统中的节点的框图;
图7是描绘根据另一示例实现的在分布式文件系统中的节点的框图;以及
图8是示出根据示例实现的确定键类别分布的方法的流程图。
具体实施方式
描述了分布式文件系统中的去重复。在实施例中,根据潜在键集来确定键类别。潜在键是可被用于代表文件系统中的文件内容的键。键类别的控制在文件系统的索引节点当中加以分配。文件系统中的节点对文件内容的数据块(例如,数据内容的部分,如以下描述的那样)去重复。在去重复期间,节点生成根据数据块计算的键。基于键和由索引节点控制的键类别之间的关系在索引节点当中分布键。以下通过参照若干示例描述各种实施例。
分布式文件系统可能是可伸缩的,在一些情况下大规模地可伸缩(例如,数百个节点和存储段)。在具有由大数量的节点控制的大数量的存储段的环境中为了去重复的目的保持对文件内容的各个要素的追踪可能是有挑战性的。进一步地,分布式文件系统被设计成能够通过按要求增长存储和处理能力来线性地按比例增加。在此描述的示例文件系统提供能够随同分布式文件系统一起伸缩的去重复能力。对已有的文件内容项(例如根据数据块计算的键)的知识被分散并被分布在多个索引节点上,从而允许被分布的知识利用附加的资源随同文件系统的其它部分一起增长。
在分布式文件系统中,不同的数据块的数量和相关的键的数量可能非常大。系统中的多个节点持续地生成不得不被去重复的新的文件数据。在在此描述的示例实现中,能够代表文件内容的数据块的完整的潜在键集被确定性地划分成键或“键类别”的子集。键类别的控制被分布在与执行去重复的节点通信的多个索引节点上。随着根据数据块计算的特有键的数量增加,并且/或者随着执行去重复的节点的数量增加,索引节点的数量可能增加并且键类别的控制可能被重分布以平衡索引负载。可以参照以下的图来理解示例实现。
图1是根据示例实现的文件系统100的框图。文件系统100包括多个节点。这些节点可能包括入口点节点104,索引节点106,目的节点110和存储节点112。这些节点还可能包括至少一个管理节点(“一个或多个管理节点130”)。目的节点110和存储节点112形成存储子系统108。存储节点112能够被逻辑地划分成被称为“存储段113”的部分。为了清楚的目的,通过示例,文件系统的节点被以复数来描述以代表实际的分布式分段的文件系统。在一般的示例实现中,文件系统100的一些节点可能是单个的,诸如至少一个入口点节点,至少一个目标节点,和/或至少一个存储节点。能够使用至少一个计算机系统来实现文件系统100中的节点。单个计算机系统能够实现所有的节点,或者能够使用多个计算机系统实现节点。
文件系统100能够服务客户机102。客户机102是文件数据的源和消费者。文件数据可能包括文件、数据流以及能够被存储在文件系统100中的相似类型的数据项。客户机102可能是能够成为文件数据的源和消费文件数据的任意类型的装置(例如,计算机)。客户机102通过网络105与文件系统100通信。客户机102和文件系统100能够使用各种协议—诸如网络文件系统(NFS)、服务器消息块(SMB)、超文本传输协议(HTTP)、文件传输协议(FTP)或相似类型的协议—通过网络105交换数据。为了存储文件数据,客户机102将文件数据发送至文件系统100。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普发展公司;有限责任合伙企业,未经惠普发展公司;有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180071613.9/2.html,转载请声明来源钻瓜专利网。