[发明专利]一种面向绿色云计算的重复数据删除方法及系统有效
申请号: | 201810271309.2 | 申请日: | 2018-03-29 |
公开(公告)号: | CN108415671B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 徐小龙;王泊;牟亦奇;朱洁;王俊昌;刘茜萍;张洁;胥备 | 申请(专利权)人: | 上交所技术有限责任公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 上海三方专利事务所(普通合伙) 31127 | 代理人: | 吴玮;李美立 |
地址: | 200131 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 绿色 计算 重复 数据 删除 方法 系统 | ||
1.一种面向绿色云计算的重复数据删除方法,其特征在于所述的方法包括:将文件划分为若干个数据块,并采用至少两个Hash函数分别对文件中的每个数据块进行指纹提取,将得到的每个数据块的至少两个指纹值作为所述数据块的唯一指纹,并将每个数据块的唯一指纹相结合作为所述文件的指纹序列,并对所述的文件的指纹序列进行Hash运算,得到文件的指纹值,将所述文件的指纹序列和文件的指纹值共同作为所述文件的唯一指纹。
2.如权利要求1所述的一种面向绿色云计算的重复数据删除方法,其特征在于采用一强Hash函数和一弱Hash函数分别对文件中的每个数据块进行指纹提取。
3.如权利要求1或2所述的一种面向绿色云计算的重复数据删除方法,其特征在于所述的方法具体包括:
步骤a.将文件切分成若干个数据块;
步骤b.对每个数据块分别进行指纹提取,从而获得每个数据块的指纹、文件的指纹序列和文件的指纹;
步骤c.将提取得到的每个数据块的指纹、文件的指纹序列和文件的指纹与指纹索引表进行比对;
步骤d. 若在指纹索引表中比对得到相同的指纹,则说明所述的文件或数据块已经存在,保存一个指针即可;否则,需要将该指纹插入指纹索引表并将该文件或数据块存入存储器中。
4.如权利要求3所述的一种面向绿色云计算的重复数据删除方法,其特征在于所述的步骤a具体包括:采用滑动窗口技术将文件划分为可变长度的数据块并同步进行指纹提取,即使滑动窗口从文件的头部逐个字节向前滑动直至文件结束,并逐个提取当前窗口内字节的指纹f,当指纹达到设定的标准时,即fmodD=r,式中:r 为预先定义的值,D 是变长块的期望值,则认为到达当前数据块的边界。
5.如权利要求3所述的一种面向绿色云计算的重复数据删除方法,其特征在于所述的步骤b包括:在文件切分后,根据文件初始长度的不同,分为四种情况进行填充和分组:
①初始长度≤512 bit,且初始长度≤448 bit;
②初始长度≤512 bit,且448 bit初始长度≤512 bit;
③初始长度512 bit,且剩余消息长度,即文件在划分、处理完所有满足分组条件后的剩余部分的长度≤448 bit;
④初始长度512 bit,且448 bit剩余消息长度≤512 bit;
若为①②文件的初始长度小于等于一个分组长度的情况,直接对初始消息进行填充和分组;
若为③④情况,则首先运用循环结构不断地将文件中满足分组划分条件的内容拷贝到一个事先定义好的 512 bit 大的分组存储区中进行分组的逻辑处理,然后对剩余消息进行填充和分组划分,并进行分组哈希运算,最后得到 128 bit 消息摘要的输出。
6.如权利要求3所述的一种面向绿色云计算的重复数据删除方法,其特征在于所述的指纹索引表包括文件指纹索引表和数据块指纹索引表,首先将文件的指纹与文件指纹索引表进行比对,若存在相同的指纹,则进一步将所述文件的指纹序列与文件指纹索引表中相同指纹的指纹序列相对比,若也相同,则表明已存在相同的文件;
若文件指纹索引表中不存在相同的文件的指纹,或者虽存在相同的文件的指纹,但文件的指纹序列不同,则进一步将文件中每个数据块的指纹与数据块指纹索引表进行对比,若存在相同的指纹,则表明已存在相同的数据块。
7.如权利要求3所述的一种面向绿色云计算的重复数据删除方法,其特征在于所述的指纹索引表采用至少两层的混合指纹索引方式,每一层指纹索引表设有若干个指纹索引项,每个指纹索引项登记一个存放数据块号或指向下一层的一个物理块,所述的物理块中存放下一层的指纹索引项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上交所技术有限责任公司,未经上交所技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810271309.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:存储装置和半导体存储装置
- 下一篇:输出方法与输出装置