[发明专利]在备份时计算散列值以删除重复数据的系统及其方法在审
申请号: | 201210507449.8 | 申请日: | 2012-11-30 |
公开(公告)号: | CN103853754A | 公开(公告)日: | 2014-06-11 |
发明(设计)人: | 刘建辉 | 申请(专利权)人: | 英业达科技有限公司;英业达股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市浩天知识产权代理事务所 11276 | 代理人: | 靳春鹰;刘云贵 |
地址: | 201114 上海市闵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 备份 时计 算散列值 删除 重复 数据 系统 及其 方法 | ||
技术领域
本发明涉及一种重复数据删除系统及其方法,特别涉及一种在备份时计算散列值以删除重复数据的系统及其方法。
背景技术
数据备份是指将存储介质中所记录的数据加以复制,一旦发生灾难或错误操作时,能够方便且及时地恢复系统的有效数据,由此保持系统的正常运作。
在数据备份时,为了避免重复备份数据而造成大量的冗余,目前有一种数据重复删除(De-duplication)技术,当使用这种技术时,储存装置上的重复数据只会保留一份,这样便可以节省大量的储存空间。目前重复数据删除技术可以在将原始数据备份到储存装置时,由储存原始数据的装置执行,这一方式被称为在线即时数据处理(inline);另外,重复数据删除技术也可以由储存装置执行,由储存装置执行的方式称为后台重复数据删除。
后台重复数据删除技术如图1所示,是由数据备份程序先将原始数据由数据来源全部复制到储存装置的存储介质中(步骤110),然后启动与数据备份程序相互独立的后台重复数据删除程序,后台重复数据删除程序会再读取备份文档中的目标数据(步骤120),并计算目标数据的散列值(步骤130)后,依据所计算出的散列值是否存在系统散列表中来判断备份数据是否存在重复数据,当系统散列表包含所计算出的散列值时,表示备份数据存在重复数据,这样便可以将重复的数据删除(步骤140)。
由上述可知,数据备份程序主要负责数据读取的操作,不过,由于目前的处理器的处理速度远高于存储介质存取数据的速度,这样造成在执行数据备份程序时,处理器的利用率非常低,而在后台重复数据删除程序中,则需要读取备份文档由此计算散列值,这表示后台重复数据删除程序还需要再读取数据,这样,在整个数据备份与重复数据删除的过程中,大部分的时间都在等待由存储介质中读取数据,一旦备份的数据量大时,整个数据备份与重复数据删除的时间会非常漫长。
综上所述,可知现有技术中长期以来一直存在后台重复数据删除技术的处理时间受限于数据存取速度的问题,因此有必要提出改进的技术手段,来解决这一问题。
发明内容
有鉴于现有技术存在后台重复数据删除技术的处理时间受限于数据存取速度的问题,本发明遂揭露一种在备份时计算散列值以删除重复数据的系统及其方法,其中:
本发明所揭露的在备份时计算散列值以删除重复数据的系统,应用于储存装置,储存装置储存多个备份文档,至少包含:数据备份程序,其中包含,文档读取模块,用以由数据来源中读取原始文档所包含的目标数据;散列计算模块,用以计算与目标数据对应的散列值;信息产生模块,用以依据散列值产生散列数据信息;储存模块,用以将目标数据与散列数据信息作为备份文档储存于储存装置中;散列表维护模块,用以建立系统散列表;信息读取模块,用以由备份文档中读取散列数据信息,并由散列数据信息中读取散列值;判断模块,用以判断系统散列表中是否存在被读出的散列值;数据删除模块,用以在判断模块判断系统散列表中存在被读出的散列值时,删除与被读出的散列值对应的目标数据。
本发明所揭露的在备份时计算散列值以删除重复数据的方法,应用于储存装置,储存装置储存多个备份文档,其步骤至少包括:由数据来源中读取原始文档所包含的目标数据;计算与目标数据对应的散列值;依据散列值产生散列数据信息;在储存装置中储存目标数据与散列数据信息为备份文档;建立系统散列表;由备份文档中读取散列数据信息;由散列数据信息中读取散列值;判断系统散列表中存在被读出的散列值时,删除与该被读出的散列值对应的目标数据。
本发明所揭露的系统与方法如上,与现有技术之间的差异在于本发明通过在数据备份时,计算备份文档中的目标数据的散列值,并将计算产生的散列值写入备份文档中,而在后台重复数据删除时,便可以由备份文档中读出散列值,并判断系统散列表中是否存在所读出的散列值,若是则删除与存在系统散列表中的散列值对应的目标数据,由此解决现有技术所存在的问题,并可以达成提高删除备份数据中的重复数据的处理速度的技术效果。
附图说明
图1为现有的数据备份程序与后台重复数据删除程序的运作过程示意图。
图2为本发明所述的在备份时计算散列值以删除重复数据的系统架构图。
图3为本发明所述的在备份时计算散列值以删除重复数据的方法流程图。
图4为本发明实施例所述的散列数据信息的示意图。
主要部件附图标记:
200 储存装置
201 存储介质
205 后台重复数据删除程序
206 数据备份程序
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英业达科技有限公司;英业达股份有限公司,未经英业达科技有限公司;英业达股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210507449.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:域间多路径路由的实现方法
- 下一篇:一种即时通信客户端及服务端