[发明专利]一种基于Hash编码的远程数据复制去重方法有效

专利信息
申请号: 201019185019.7 申请日: 2010-02-08
公开(公告)号: CN101789977A 公开(公告)日: 2010-07-28
发明(设计)人: 刘靖宇;周泽湘;谢红军;谭毓安;王成武 申请(专利权)人: 北京同有飞骥科技有限公司
主分类号: H04L29/08 分类号: H04L29/08;H04L29/06
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hash 编码 远程 数据 复制 方法
【说明书】:

技术领域

发明属于数据容灾技术领域,涉及一种远程数据复制去重方法,具体涉 及一种在远程数据容灾系统中利用Hash编码识别并避免传送重复数据块的方 法。

背景技术

数据容灾技术是一项保证计算机系统完整性和可用性的重要措施。其中, 远程复制技术通过网络链路为本地数据在异地保存一个独立的备份,使得当本 地系统被损毁时,可以从异地系统恢复数据和业务应用。其基本实现过程为:

首先,将本地的源服务器(源节点)磁盘上的所有数据块全部复制到异地 的目标服务器(目标节点),完成数据的初始同步。之后,源节点的数据变化通 过网络同步地或异步地复制到目标节点。这种方式存在以下缺点:

源节点和目标节点通常部署在相隔很远的两个建筑里,甚至是两个城市中。 由于专用网络价格昂贵,源节点和目标节点之间的数据复制一般采用普通IP网 络。当数据更新频繁,数据传输量很大时,在数据复制过程中可能会因为网络 带宽和延迟而导致性能的下降和备份数据的丢失。

此外,磁盘上的部分数据块内容是相同的,例如,一个文件在磁盘上可能 有多个副本,或者保存了多个版本,而不同版本之间存在重复的内容。在数据 容灾系统中,当源节点为一个文件创建副本或者更新某个文件时,这个文件的 全部数据块需要传送到目标节点。然而,目标节点中已经包含了这个文件的部 分数据,在网络上传送的部分数据块和目标节点磁盘上的数据块是重复的,这 就严重降低了网络的利用率,增加了不必要的网络带宽消耗。

发明内容

本发明的目的是为了克服现有技术存在的缺陷,为提高远程复制过程中的 网络利用率、降低数据复制时的网络带宽开销,提出一种基于Hash编码的远程 数据复制去重方法。本发明方法通过扩展源节点和目标节点之间的数据复制协 议,由源节点通过Hash编码匹配方法识别出重复数据块,而不需要传输数据块 到目标节点,目标节点直接从其磁盘复制数据块。当进行传输重复数据块时, 只需要传送地址信息(即数据块块号),而不必传送数据本身,从而避免传送重 复数据,由此降低数据传输所需的网络带宽开销。

本发明采用的技术方案如下:

现有的数据容灾系统都是通过IP网络在两个节点之间复制数据块,以保证 两个节点中磁盘的数据一致性。本发明在数据磁盘外,使用一部分额外的存储 空间(即Hash库)记录下数据磁盘每个数据块的Hash值,且Hash库与磁盘数 据同步更新,源节点和目标节点的Hash库内容一致。其系统架构图如图1所示。

通常,每个数据块的大小为4KB(即4096字节),使用MD5Hash算法, 计算出128位Hash值,占16字节。Hash库按顺序存放数据磁盘所有数据块的 Hash值,每个数据块占用16字节,则Hash库所需空间为数据磁盘的 16/4096=1/256。Hash库的结构如图2所示。

当源节点接收到对某个数据块(称为目的数据块)的写请求后,将该数据 块写入数据磁盘,并计算数据块的Hash值,与Hash库相匹配。

如果匹配不成功,则将目的数据块内容传送给目标节点,目标节点将其写 入磁盘的目的数据块。

如果匹配成功,则表示源节点的数据盘中的某个数据块(称为源数据块) 与目的数据块的内容相同,即重复数据。而这个数据块在之前的初始化或数据 复制过程中已经被传送到目标节点,或者说,目标节点数据磁盘的源数据块已 经含有目的数据块的内容。因此,源节点只需要将源数据块和目的数据块的地 址(即源块号和目的块号)传送给目标节点,由目标节点从其磁盘中读出源数 据块,再将其写入到目的数据块即可。

写入成功后,双方将目的数据块的Hash值写入到Hash库中。

当源节点发生故障时,异地的目标节点可启动业务系统接管源节点的服务。 在源节点修复前,目标节点的数据变化不能被传输到源节点,目标节点的数据 块写入其数据盘,同时更新其Hash库。当源节点修复后,两个节点之间需要执 行数据重新同步。同样,目标节点发生故障后,源节点数据磁盘中数据块变化 时,其Hash库也被更新。目标节点修复后,也需要执行数据重新同步。

比较两个节点的Hash库,可以获得发生变化的数据块的集合。正常节点将 这些数据块传送到发生过故障的节点,保持两个节点之间数据的一致性。在传 送发生变化的数据块过程中,仍然可以使用上述的去重技术。

本发明的有益效果是:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京同有飞骥科技有限公司,未经北京同有飞骥科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201019185019.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top