[发明专利]重复数据删除的数据区块切分方法与新增方法无效
申请号: | 201010564586.6 | 申请日: | 2010-11-17 |
公开(公告)号: | CN102467571A | 公开(公告)日: | 2012-05-23 |
发明(设计)人: | 朱明胜;王云松;陈志丰 | 申请(专利权)人: | 英业达股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 梁挥;祁建国 |
地址: | 中国台*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重复 数据 删除 区块 切分 方法 新增 | ||
技术领域
本发明公开了一种重复数据删除的处理方法特别有关于一种重复数据删除的数据区块切分方法与新增方法。
背景技术
重复数据删除是一种数据缩减技术,通常用于基于磁盘的备份系统,主要目的在于减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块用指示符取代。由于存储系统中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。采用“重复删除”技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使存储系统上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。
为能判断存除系统中数据区块是否重复,因此现有技术中以定长切分(fixed-size partition)或内容定义切分(content-defined chunking,CDC)作为判断的依据。定长切分算法采用预先定义好的数据区块110大小对输入文件100进行切分。定长分块算法的优点是简单、性能高,但它对数据插入和删除非常敏感,处理十分低效,不能根据内容变化作调整和优化。请参考图1A所示,其为现有技术的定长切分示意图。
内容定义切分算法是一种变长分块算法它应用指纹数据(如Rabin指纹)将文件分割成长度大小不等的分块策略。与定长切分算法不同,内容定义切分算法是基于文件内容进行数据区块110切分的,因此数据区块110大小是可变化的。在算法执行过程中,内容定义切分算法是使用一个固定大小(如48字节)的滑动窗口对文件数据计算数据指纹。如果指纹满足特定条件(例如当值模特定的整数等于预先设定的数时)则把窗口位置作为数据区块110的边界。但是内容定义切分算法可能会出现错误切分的情况。换言之,当指纹条件不能满足,数据区块110的边界就不能确定,这样将导致数据区块110的容量过大。请参考图1B所示,其为现有技术的内容定义切分示意图。
发明内容
鉴于以上的问题,本发明的主要目的在于提供一种重复数据删除的数据区块切分方法,应用在文件备份程序中,用以将输入文件进行文件切割为多个数据区块。
为达上述目的,本发明所公开的重复数据删除的数据区块切分方法包括以下步骤:载入输入文件;利用固定长度的滑动窗口在输入文件中循序移动,并记录滑动窗口于输入文件的起始位置,且同时记录当前滑动窗口位于输入文件的尾端位置,将起始位置与尾端位置间的长度定义为分块长度;根据滑动窗口对输入文件的固定长度的所涵盖范围进行指纹特征程序,用以产生指纹特征值;重复滑动窗口的移动,直至滑动窗口符合切分条件时,则停止滑动窗口的移动,再根据输入文件的分块长度产生相应的数据区块;依据滑动窗口在前一数据区块的尾端位置作为新的滑动窗口的起始位置,并重复执行产生数据区块的步骤,直至完成输入文件中的所有数据区块为止,且产生指纹特征值的索引文件。
其中,切分条件中更包括:判断指纹特征值符合切分数值;若指纹特征符合切分数值,则停止滑动窗的滑动;若指纹特征不符合切分数值,则判断分块长度是否符合预设长度;若分块长度符合预设长度,则停止滑动窗口的滑动;若分块长度不符合预设长度,移动滑动窗口并重复判断切分条件。
透过上述的数据区块切分方法的处理后,本发明另提出一种应用上述切分方法的重复数据删除的数据区块新增方法。
为达上述目的,本发明所公开的一种重复数据删除的数据区块新增方法包括以下步骤:载入新增过数据区块的该输入文件;对输入文件进行数据区块切分程序,产生多组数据区块;对每一数据区块进行哈希程序,计算每一数据区块所相应的哈希值;依序比对每一哈希值是否与这些指纹特征值相同;当哈希值与指纹特征值不相同时,则在索引文件中将哈希值插入前一相同数据区块的指纹特征值之后;重复比对哈希值与这些指纹特征值,直至完成所有的哈希值的比对为止。
本发明以不同的数据长度动态的产生不同大小数据区块,并且透过相应的新增方法将新的数据写入对应的数据区块后。因此,本发明可以有效的降低数据的储存量,并且亦可对现有的数据做相应的新增。
有关本发明的特征与实作,配合附图作最佳实施例详细说明如下。
附图说明
图1A为现有技术的定长切分示意图;
图1B为现有技术的内容定义切分示意图;
图2为本发明的切分运作流程示意图;
图3为本发明的数据区块切分示意图;
图4A为本发明的分块长度运作示意图;
图4B为本发明的切分位置示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英业达股份有限公司,未经英业达股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010564586.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:造船生产流程控制方法及控制装置
- 下一篇:文件备份方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置