[发明专利]一种面向数据去重技术的近似最优数据碎片块重写方法有效
申请号: | 202010748768.2 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111858574B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 邓玉辉;张大统 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F9/50 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 詹丽红 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 技术 近似 最优 碎片 重写 方法 | ||
1.一种面向数据去重技术的近似最优数据碎片块重写方法,将备份数据流划分为n个数据段,每个数据段引用若干个容器,每个容器存放1个以上的数据块,数据块分为碎片块和非碎片块,其特征在于,所述的重写方法包括以下步骤:
S1、分配并初始化一块内存空间,其过程如下:
S11、申请分配一块内存空间,将该内存空间划分为多个小内存空间,每个小内存空间被称为桶;
S12、按照前后顺序依次为每个桶设置一个绑定值,绑定值由低到高;
S2、初始化i=1,i=1,2,…,n,从前i个数据段所引用容器中选出最优的x个容器,并确定对于数据段i的最优阈值,过程如下:
S21、计算数据段i所引用容器的容器引用率,其中容器引用率表示一个容器被一个数据段引用的次数或频率;
S22、根据匹配规则将数据段i所引用的容器放到对应的桶中,其中,匹配规则定义如下:假设按前后顺序有两个桶A和B,当一个容器的容器引用率小于或者等于桶B的绑定值且大于桶A的绑定值时,则判定容器和桶B是匹配的;
S23、从绑定值最低的桶开始遍历,累加每个桶中存放容器的个数,直到累加的容器个数等于x时停止遍历,所遍历的容器即为最优的x个容器,此时指向的桶的绑定值即为对于数据段i的最优阈值,对于数据段i所引用的容器,若容器引用率小于或等于该最优阈值,则为最优容器,否则,为次优容器;
S3、在数据段i所引用的容器中选出部分容器,并重写这些容器中存放的碎片块,过程如下:
S31、若采用最优重写策略,选出数据段i所引用容器中的最优容器,并重写所选容器中存放的碎片块;
S32、若采用激进重写策略,选出数据段i所引用容器中的最优容器后,再选出y个次优容器,并重写所选容器中存放的碎片块,其中y小于或者等于数据段i所引用的次优容器的个数;
S33、返回步骤S21,处理数据段i+1,直到完成所有数据段的处理。
2.根据权利要求1所述的一种面向数据去重技术的近似最优数据碎片块重写方法,其特征在于,根据策略切换阈值thres选择所采用的重写策略,其中thres表示容器的个数,默认情况下使用最优重写策略,当containersselect-containershandlethres时,切换到激进重写策略,其中containersselect表示当前累计选择容器的个数,containershandle表示当前累计处理容器的个数,其中处理容器指的是重写容器中存放的碎片块。
3.根据权利要求1所述的一种面向数据去重技术的近似最优数据碎片块重写方法,其特征在于,所述的内存空间为一个哈希桶数组,数组元素为哈希桶,即小内存空间。
4.根据权利要求3所述的一种面向数据去重技术的近似最优数据碎片块重写方法,其特征在于,所述的哈希桶存放容器,是逻辑上的存放,即哈希桶只是用来记录匹配该哈希桶的累计容器个数,并不是真实的存放容器。
5.根据权利要求1所述的一种面向数据去重技术的近似最优数据碎片块重写方法,其特征在于,x的取值规则如下:x=acml-cap*i,其中acml表示前i个数据段累计引用容器的个数,cap为一个预先设置的值,表示容器的个数。
6.根据权利要求1所述的一种面向数据去重技术的近似最优数据碎片块重写方法,其特征在于,y的取值规则如下:y小于或者等于数据段i所引用的次优容器的个数;同时还需满足条件:y≤(sum-cap-z),其中sum表示该数据段i引用容器的个数,cap为一个预先设置的值,表示容器的个数,z表示数据段i所引用的最优容器的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010748768.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种吊篮式翻坯装置
- 下一篇:一种基于夹板水培法的玉米根系突变体筛选方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置