[发明专利]一种面向数据去重技术的近似最优数据碎片块重写方法有效

专利信息
申请号: 202010748768.2 申请日: 2020-07-30
公开(公告)号: CN111858574B 公开(公告)日: 2022-02-11
发明(设计)人: 邓玉辉;张大统 申请(专利权)人: 暨南大学
主分类号: G06F16/215 分类号: G06F16/215;G06F9/50
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 詹丽红
地址: 510632 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 数据 技术 近似 最优 碎片 重写 方法
【说明书】:

发明公开了一种面向数据去重技术的近似最优数据碎片块重写方法。数据时代的到来,数据总量呈现爆炸式的增长,信息世界的数据存储和管理需求已经达到PB甚至EB级。IDC研究发现,在数字世界中接近75%的数据都是冗余的,ESG指出在备份和归档系统中数据冗余度超过90%。数据去重技术能够有效地识别和消除重复数据,降低数据存储的成本。但是,删除重复数据会导致数据碎片化,数据碎片化严重损害了数据恢复性能。本发明能够准确识别出数据块中的碎片块,并通过重写碎片块缓解数据碎片化的程度;同时,本发明能够根据不同的工作负载自适应地切换重写策略(最优重写策略和激进重写策略),从而大大提高数据恢复性能,以及数据去重率。

技术领域

本发明涉及数据存储和数据去重技术领域,具体涉及一种面向数据去重技术的近似最优数据碎片块重写方法。

背景技术

随着数据时代的到来,全世界的数据总量呈现爆炸式增长的趋势。IDC研究表明到2020年,全世界每年的数据增长量将从2009年的0.8ZB增长44倍到35ZB。随着移动设备和传感器等设备的增加更是使得数据的增长加剧,这些数据来源包括人类的基因、社交网络、金融分析、环境保护、能源勘探、电子游戏以及医疗卫生等越来越多的应用领域。这些数据不仅总量巨大,而且数据结构复杂多样,这给数据的存储和管理带来新的挑战,同时也使得数据管理的风险上升。如何有效的管理、组织和运维这些数据对一个企业甚至是个人都具有巨大的价值。数据去重技术作为一种新型的大规模冗余数据消除技术被广泛地应用于数据中心、存储系统和备份系统,该技术能够有效地降低存储成本。同时,数据去重技术也从二级存储向主存储延伸,不仅仅用于归档和备份系统,也用于虚拟机环境、内存管理和远程数据传输等场景下数据的管理。

然而,数据去重技术却引入了数据碎片化,数据碎片化严重地损害了数据去重系统的读性能,即数据恢复性能。缓解数据碎片化的主要手段为重写碎片块,但是当前重写碎片块的方法(简称为重写方法)却具有损失数据去重率较大,提升数据恢复性能较小的缺点。造成这一缺点的主要有两个原因:(1)当前重写方法只对一个数据段所引用的容器按照容器引用率进行排序,并片面武断地选出容器引用率“最低”的容器,这导致了它们所选出的容器并不是最优的,从而所重写的碎片块也不是最优的;(2)当前重写算法不能根据不同的工作负载,自适应地调整重写策略。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷,提供一种面向数据去重技术的近似最优数据碎片块重写方法,提高数据去重的数据恢复性能和数据去重率。

本发明的目的可以通过采取如下技术方案达到:

一种面向数据去重技术的近似最优数据碎片块重写方法,将备份数据流划分为n个数据段,每个数据段引用若干个容器,每个容器存放1个以上的数据块,数据块分为碎片块和非碎片块,所述的重写方法包括以下步骤:

S1、分配并初始化一块内存空间,其过程如下:

S11、申请分配一块内存空间,将该内存空间划分为多个小内存空间,每个小内存空间被称为桶;

S12、按照前后顺序依次为每个桶设置一个绑定值,绑定值由低到高;

S2、初始化i=1,i=1,2,…,n,从前i个数据段所引用容器中选出最优的x个容器,并确定对于数据段i的最优阈值,过程如下:

S21、计算数据段i所引用容器的容器引用率,其中容器引用率表示一个容器被一个数据段引用的次数或频率;

S22、根据匹配规则将数据段i所引用的容器放到对应的桶中,其中,匹配规则定义如下:假设按前后顺序有两个桶A和B,当一个容器的容器引用率小于或者等于桶B的绑定值且大于桶A的绑定值时,则判定容器和桶B是匹配的;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010748768.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top