[发明专利]一种分布式数据存储系统的修复方法有效
申请号: | 201510506387.2 | 申请日: | 2015-08-18 |
公开(公告)号: | CN105159603B | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 高翔;陈健;赖建华;刘志光 | 申请(专利权)人: | 福建省海峡信息技术有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350003 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 数据 存储系统 修复 方法 | ||
技术领域
本发明涉及分布式数据存储系统中数据修复的技术领域,特别是一种分布式数据存储系统修复方法。
背景技术
随着互联网的普及与发展,数据在人类生活中起着越来越重要的作用,人们对数据的可靠性和安全性有了更高的要求。英特尔创始人之一戈登.摩尔(GordonMoore)提出来了摩尔定律,其内容为:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。在1998年图灵奖获得者Jim Gray发表了著名的存储界的“摩尔定律”:每18个月全球新增信息量等于有史以来全部信息量的总和。数据海量化成为趋势,为了便于存储大规模数据,分布式存储系统就应运而生。
分布式数据存储系统提供了两种可靠性:可用性(availability)和持久性(durability)。可用性是指故障节点中的数据能够通过当前其他可利用的节点来进行重建修复;而持久性是指,数据并不会因为系统中的某个或者某些节点故障(如节点下线、自然灾害、磁盘损坏等)而丢失原有的数据。也就是说,尽管系统中的数据,目前由于某些节点故障而不能现在修复,但是在将来的某一时刻,还是能够修复的。这两者之间的区别是,可用性强调的是节点当前数据是否可用,而持 久性强调的是将来系统的数据能够长久保存。
目前比较著名的分布式文件系统有Google公司的GFS(Google File System开源的HDFS(Hadoop Distr ibuted file System)、Lustre、MooseFs以及清华大学自主研发的CarrierFs等。其中GFS管理着Google公司百万服务器上的海量数据,基于GFS的分布式数据库BigTable支撑着Google搜索、地图、社交网络等服务。HDFS为Hadoop底层分布式文件系统,由于Hadoop能够部署在通用平台上,相比较于传统的集中式存储,它具有更高具有可扩展性(Scalable)、低成本(Economical)、高效性(Efficient)与可靠性(Reliable)等优点,使其在分布式计算领域得到了广泛的。但是,分布式系统的单个节点的可用性不高,在系统中会不断出现节点因为磁盘损坏、节点下线、自然灾害等因素而失效。因此为了保证数据的持久性,在节点失效后,就一定要加入新节点代替失效节点,以此来维护整个系统的数据可靠性。由于分布式系统的存储的信息都是海量数据,要实现此功能无疑是个巨大挑战。
目前,分布式数据存储的修复技术有基于副本的修复、基于编码的修复和基于路由器加速的修复。
1.基于副本的数据修复:存储节点中存储的是源文件的副本数据,修复时newNode从任一provider中获取数据,也可从多provider并行下载以降低传输时间。
当某个副本丢失或损坏后,系统需要再建立一个新的副本,为此系统选择一个存储节点作为newNode,newNode从至少一个存储节点 中接受数据,向newNode提供数据的节点称为provider。如图1中所示,在网络中,源文件被保存为3个副本保存于3个存储节点上,当其中一个丢失后,newNode将剩下的两个作为provider并从2个provider并行地接受数据,直到整个副本被下载到newNode。从而一个新的副本产生于newNode之上。
该技术的缺点在于:节点需存储大量数据,每个存储节点均需存储一个文件副本,存储冗余度大,造成大量存储资源浪费。修复时间长,需传输整个文件,同时占用大量网络带宽资源。
2.基于编码的数据修复(纠删码):源文件在被存储到存储节点前进行编码。整个文件被分为k块,编码后可得到n个编码块,n个编码块中的任意k块即可恢复源文件。每个存储节点中分别存储一个编码块。修复时,newNode至少需从k个provider下载编码块,由newNode对收到的编码块重新编码得到一个新的编码块。
如图2,源文件被划分为3块,并被编码为4个编码块(不同编码块大小相同)。系统中4个存储节点分别保存一个编码块。当第4个编码块丢失后,系统选择一个节点作为newNode,newNode从剩余的3个存储节点(即provider)中接收数据。newNode接收3个编码块后,通过该3个编码块恢复出源文件,再重新编码得到一个新的编码块并保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建省海峡信息技术有限公司,未经福建省海峡信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510506387.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置