[发明专利]分布式数据存储系统中数据复制的方法以及相应设备有效
申请号: | 201110279583.2 | 申请日: | 2011-09-20 |
公开(公告)号: | CN102411607A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 亚历山大·万肯彭;埃尔温·勒梅雷;尼古拉斯·勒斯库阿内克 | 申请(专利权)人: | 汤姆森许可贸易公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 戎志敏 |
地址: | 法国伊西*** | 国省代码: | 法国;FR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 数据 存储系统 复制 方法 以及 相应 设备 | ||
技术领域
本发明总体上涉及分布式数据存储系统。具体地,本发明涉及在确保期望级别数据复制所需的数据复制数量方面对分布式存储系统的优化。
背景技术
随着海量数据处理设备(例如视频和图像处理设备)的快速广泛使用,对于直接存储或者作为备份存储的一部分,需要对大量数据的可靠存储。由于越来越多的设备具备网络连通性,网络连接设备中数据的分布式存储被视为节省成本的解决方案。在这样的分布式数据存储系统中,为了确保针对暂时或永久数据损失的数据可用性和复原,已经开发出了在分布式数据存储网络中将相同的数据项拷贝至多个网络连接设备。这被称作数据复制。必须在广义上考虑数据复制,并且数据复制仅涵盖数据重复以及对诸如擦除或再生码之类的编码技术的使用。为了应对由于设备故障或设备不可用而引起的永久或暂时数据损失的风险,期望高复制因子(即,大量拷贝)。然而,为了降低通信和所需存储大小方面的成本(从而被称作复制成本),期望具有低复制因子。
需要一种实现分布式数据存储的高级别数据可用性,同时考虑针对数据损失的复原和复制成本。
发明内容
本发明目的在于消除现有技术的一些不足。
在诸如对等网络之类的分布式数据网络中,设备不断地加入和离开网络。如果作为分布式数据存储网络一部分的设备决定离开网络,则数据复制级别降低。在基于数据重复分布式数据存储系统中,通过创建新数据项来恢复该数据复制级别,新数据项是网络中新设备或现有设备上从存储了相同数据项的其他仍可用是设备拷贝的可用数据项。对于基于擦除或再生码的分布式数据存储系统,通过创建新数据项来恢复数据复制级别,数据是网络中新设备或现有设备上从用于复制数据项的其他仍可用设备产生的。然而,设备的离开未必是决定性的,并且设备的不可用性仅是暂时的。因此问题在于如何确定设备已经完全离开分布式数据存储系统,以在适当时刻触发对由于设备的离开而降低的数据复制级别的修复。如果恢复仅是设备的暂时断开而引起的复制级别降低,则恢复可以被视为毫无价值,并且在存储方面和网络通信方面被视为对分布式数据存储网络资源的不必要浪费。
在观察作为分布式数据存储系统一部分的设备的行为时,可以观察到设备具有它们自己的连通行为。例如,特定设备始终连接,而其他设备仅在白天连接且在晚上断开,而另外的其他设备具有更随机的连接行为。文献“用于有效的分布式存储维护的概率故障检测”,JING TIAN等人,Reliable Distributed Systems,2008,SRDS’08,IEEE symposium,2008年10月6日提出基于每个节点的故障检测是困难的,并且取而代之提出预测每组节点的数据可用性。但是当如所引述的文献进行处理时,当对各个单独节点的信息进行分组时,组中各个单独节点的行为信息丢失,因此该现有技术文献中描述的方法导致效率的损失,发起不必要的修复。与上述相比,本发明能够开发对各个单独设备的连通行为的认识,以确定何时设备可以被视为已完全离开分布式数据存储网络,并且在适当时刻触发数据项的新创建,以便最优地使用分布式数据存储网络的资源。对于这种确定,本发明使用超时,根据设备的停机时间(downtime)分布来确定超时的超时值,其中停机时间分布基于针对该设备而测量的可用性行为。当断开设备时,超时以确定的持续时间开始。当设备在超时期满之前重新连接时,超时重置。然而当超时持续时间期满时,认为设备已完全离开分布式数据存储系统,并且开始修复动作,修复动作包括在新设备或现有设备上,通过创建新数据项来恢复复制级别。从一个或多个用于存储数据项的剩余设备拷贝新数据项(在基于数据重复的数据拷贝的情况下),或者创建新数据项(在基于擦除或再生码的数据复制的情况下)。因此,确定正确的超时持续时间是重要的。由于超时值太短,进行了太多不需要的‘修复’,因为暂时断开被视为永久断开。许多不需要的修复可以引起分布式数据存储系统的拥塞。相反,如果超时值太长,当在超时期满之前发生若干永久断开,会危害数据持续性。因此,根据本发明,使用对单独设备连同行为的认识,以便确定适合于各个单独设备的连通行为的超时持续时间。在本发明的上下文中,收集与分布式数据存储系统的每个设备的停机时间有关的数据。
为了优化分布式数据存储系统中的数据复制,本发明包括一种分布式数据存储系统中数据复制的方法,所述分布式数据存储系统包括至少用作存储设备的网络设备,所述方法包括至少以下步骤:
-对于数据项的每次存储,选择复制集合,复制集合表示分布式数据存储系统中被选择用于存储数据项的预定数目k个存储设备,预定数目k表示所谓的复制级别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汤姆森许可贸易公司,未经汤姆森许可贸易公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110279583.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复合结构滑轮
- 下一篇:用于余热锅炉9F模块的疏水起吊装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置