[发明专利]一种面向数据去重技术的近似最优数据碎片块重写方法有效
申请号: | 202010748768.2 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111858574B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 邓玉辉;张大统 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F9/50 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 詹丽红 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 技术 近似 最优 碎片 重写 方法 | ||
本发明公开了一种面向数据去重技术的近似最优数据碎片块重写方法。数据时代的到来,数据总量呈现爆炸式的增长,信息世界的数据存储和管理需求已经达到PB甚至EB级。IDC研究发现,在数字世界中接近75%的数据都是冗余的,ESG指出在备份和归档系统中数据冗余度超过90%。数据去重技术能够有效地识别和消除重复数据,降低数据存储的成本。但是,删除重复数据会导致数据碎片化,数据碎片化严重损害了数据恢复性能。本发明能够准确识别出数据块中的碎片块,并通过重写碎片块缓解数据碎片化的程度;同时,本发明能够根据不同的工作负载自适应地切换重写策略(最优重写策略和激进重写策略),从而大大提高数据恢复性能,以及数据去重率。
技术领域
本发明涉及数据存储和数据去重技术领域,具体涉及一种面向数据去重技术的近似最优数据碎片块重写方法。
背景技术
随着数据时代的到来,全世界的数据总量呈现爆炸式增长的趋势。IDC研究表明到2020年,全世界每年的数据增长量将从2009年的0.8ZB增长44倍到35ZB。随着移动设备和传感器等设备的增加更是使得数据的增长加剧,这些数据来源包括人类的基因、社交网络、金融分析、环境保护、能源勘探、电子游戏以及医疗卫生等越来越多的应用领域。这些数据不仅总量巨大,而且数据结构复杂多样,这给数据的存储和管理带来新的挑战,同时也使得数据管理的风险上升。如何有效的管理、组织和运维这些数据对一个企业甚至是个人都具有巨大的价值。数据去重技术作为一种新型的大规模冗余数据消除技术被广泛地应用于数据中心、存储系统和备份系统,该技术能够有效地降低存储成本。同时,数据去重技术也从二级存储向主存储延伸,不仅仅用于归档和备份系统,也用于虚拟机环境、内存管理和远程数据传输等场景下数据的管理。
然而,数据去重技术却引入了数据碎片化,数据碎片化严重地损害了数据去重系统的读性能,即数据恢复性能。缓解数据碎片化的主要手段为重写碎片块,但是当前重写碎片块的方法(简称为重写方法)却具有损失数据去重率较大,提升数据恢复性能较小的缺点。造成这一缺点的主要有两个原因:(1)当前重写方法只对一个数据段所引用的容器按照容器引用率进行排序,并片面武断地选出容器引用率“最低”的容器,这导致了它们所选出的容器并不是最优的,从而所重写的碎片块也不是最优的;(2)当前重写算法不能根据不同的工作负载,自适应地调整重写策略。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种面向数据去重技术的近似最优数据碎片块重写方法,提高数据去重的数据恢复性能和数据去重率。
本发明的目的可以通过采取如下技术方案达到:
一种面向数据去重技术的近似最优数据碎片块重写方法,将备份数据流划分为n个数据段,每个数据段引用若干个容器,每个容器存放1个以上的数据块,数据块分为碎片块和非碎片块,所述的重写方法包括以下步骤:
S1、分配并初始化一块内存空间,其过程如下:
S11、申请分配一块内存空间,将该内存空间划分为多个小内存空间,每个小内存空间被称为桶;
S12、按照前后顺序依次为每个桶设置一个绑定值,绑定值由低到高;
S2、初始化i=1,i=1,2,…,n,从前i个数据段所引用容器中选出最优的x个容器,并确定对于数据段i的最优阈值,过程如下:
S21、计算数据段i所引用容器的容器引用率,其中容器引用率表示一个容器被一个数据段引用的次数或频率;
S22、根据匹配规则将数据段i所引用的容器放到对应的桶中,其中,匹配规则定义如下:假设按前后顺序有两个桶A和B,当一个容器的容器引用率小于或者等于桶B的绑定值且大于桶A的绑定值时,则判定容器和桶B是匹配的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010748768.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种吊篮式翻坯装置
- 下一篇:一种基于夹板水培法的玉米根系突变体筛选方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置