[发明专利]一种面向分布式去重系统的数据路由方法有效

专利信息
申请号: 201310655727.9 申请日: 2013-12-06
公开(公告)号: CN103631933B 公开(公告)日: 2017-04-12
发明(设计)人: 刘厚贵;邢晶;霍志刚;安学军 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/30 分类号: G06F17/30;H04L29/08
代理公司: 北京泛华伟业知识产权代理有限公司11280 代理人: 王勇
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 分布式 系统 数据 路由 方法
【说明书】:

技术领域

发明总体涉及重复数据删除技术,具体而言,涉及一种面向分布式去重系统的数据路由方法。

背景技术

人类进入数字信息化时代以来,大量信息已被记录成数据。从衣食住行基本的生活需求到教育医疗和商业领域,从传统的互联网到由智能手机发展起来的移动互联网,越来越多的人和设备参与到数据的创造中来,每年产生的数据总量呈现爆炸式增长。与此同时,由于数据中存在潜在的商业和科研价值,因此越来越多的数据被记录和保存起来。国际数据公司(IDC)的研究报告指出2011年全球被创建和复制的数据高达1.8ZB,而且根据趋势,到2015年这个数字将接近8ZB。国际数据公司(IDC)通过研究发现在数字世界中有近75%的数据是重复的。无独有偶,企业战略集团(the Enterprise Strategy Group)指出在备份和归档存储系统中数据的冗余度超过90%。

使用重复数据删除技术来优化存储可以有效减少数据在磁盘上的占用空间。然而,面对数据的高速增长,单一的重复数据删除服务器已经难以满足扩展性的需求。因此,集群重复数据删除技术应运而生。集群重复数据删除系统,或称分布式去重系统,通过将重复数据删除的任务分布到不同的服务器节点来提高重复数据删除服务器的处理能力。在集群重复数据删除系统中,除了考虑单个节点的去重问题外,还需要考虑将数据分配到去重服务器节点的数据路由机制,这是因为数据路由机制关系到系统整体的去重效果以及存储利用率的平衡。

目前,根据是否参考已有数据(即已存储的数据)将分布式去重系统的数据路由分为两种方法。一种方法是无状态数据路由,这种数据路由只参考当前的数据指纹信息,根据固定的映射规则,将数据分发到不同的去重服务器节点(简称去重节点)进行去重。其中,指纹(FP)用于判断构成数据的数据块是否重复,一般可通过SHA1或者MD5函数来计算数据块的指纹。这种数据路由方法实现简单,时间和空间开销都比较小。但是这种方法存在两点不足:首先,由于没有参考已存储的数据,因此无法保证数据在目标去重节点的去重率;其次,由于没有考虑去重节点的已有存储利用率,并且数据在不同去重服务器节点的去重效果不一样,因此会产生数据孤岛的问题,即某个重复数据删除服务器节点存储的数据远高于其他重复数据删除服务器节点。

另一种方法是有状态数据路由,这种方法参考系统已有数据的数据摘要和去重节点的数据存储情况来进行数据路由。这里,数据摘要是通过将构成数据的数据块指纹插入Bloom Filter(BF)而得到的。简要而言,该方法先访问存储关于每个去重节点的数据摘要的摘要存储节点,查询指纹得到该指纹在每个去重节点的命中得分,接着结合去重节点的存储利用率选择目标去重节点。这种方法的优点是能保证分布式去重系统整体的去重效果,同时能平衡去重节点的存储利用率。而缺点是这种方法需要额外的摘要存储节点用于查询,而数据摘要的内存开销很大,因此这种方法难以获得很好的扩展性。

可见,在达到去重效果与存储利用率的平衡的同时,如何提高分布式去重系统数据路由的可扩展性,并且抑制指纹查询过程中通信和计算开销的增长是当前还没有解决的问题。

发明内容

为解决上述问题,本发明提供一种面向分布式去重系统的数据路由方法,其中所述分布式去重系统包括摘要存储节点、去重节点,和与系统中其他节点通信的服务器,所述方法包括:

步骤1)、服务器将构成数据的所有数据块的指纹进行分类,并且将不同类别的指纹分别发送到存储相应类别指纹的数据摘要的不同摘要存储节点;

步骤2)、在所述摘要存储节点中查询接收到的指纹,得到该指纹在每个去重节点的命中分数,将该命中分数返回所述服务器;

步骤3)、所述服务器根据每个指纹在每个去重节点的命中分数得到每个去重节点的汇总分数,根据该汇总分数确定目标去重节点。

在一个实施例中,在步骤3)中,根据汇总分数确定目标去重节点包括:所述服务器结合每个去重节点的存储状况和汇总分数来确定目标去重节点。

在一个实施例中,每个摘要存储节点存储每个去重节点已存储数据的所有数据块指纹中一类指纹的数据摘要,其中指纹类别的总数与摘要存储节点的个数相同。

在一个实施例中,所述摘要存储节点使用Bloom Filter来存储每个去重节点的数据摘要。

在一个实施例中,在步骤1)中,服务器用所述摘要存储节点的个数对构成数据的所有数据块的指纹取模,将余数相同的指纹分为一类。

在一个实施例中,步骤2)包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310655727.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top