[发明专利]分布式计算机存储系统中数据副本异构存储与访问方法有效
申请号: | 201711024532.9 | 申请日: | 2017-10-27 |
公开(公告)号: | CN107807793B | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 王建民;黄向东;乔嘉林;龙明盛 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;H04L29/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 计算机 存储系统 数据 副本 存储 访问 方法 | ||
本发明涉及一种分布式计算机存储系统中数据副本异构存储与访问方法,属于计算机数据管理技术领域。首先根据用户指定的属性优先级和数据副本数n进行属性分配,每个数据副本对应一个存储特征,并根据存储特征创建各个数据副本的存储模型,随后将数据写入到n个数据副本中;在访问请求到来时,解析访问条件,生成访问属性集,计算各个数据副本的访问优先级,找出最佳访问数据副本进行访问。本发明将不同数据副本按照用户访问特点按不同属性排序存储,从而使分布式计算机存储系统中数据的多个数据副本能够快速响应用户在数据不同属性上的访问请求,使得多副本技术在提高系统可用性的基础上,还提升了系统的访问性能。
技术领域
本发明涉及一种分布式计算机存储系统中数据副本异构存储与访问方法,属于计算机数据管理技术领域。
背景技术
工业领域需要处理的数据通常具有多个属性,如工业领域风机传感器观测到的数据,每一条数据包含采样时间、设备编号、风速等属性;可移动设备中GPS传感器产生的每一条数据包含采样时间、设备编号、经纬度、高度等属性。用户会对这些数据进行访问,如:访问某个时间段的数据、访问某些设备的数据等。分布式计算机存储系统需根据用户的访问请求快速找到所需数据。
在分布式计算机存储系统中,为了提高系统的性能以及可用性,将数据以多副本的形式进行存储已成为一种共识。多副本技术是指将一份数据复制多份,并将各数据副本分别存放在分布式计算机存储系统的不同节点上。当某个(或某些)节点宕机时,会导致相应数据副本无法访问。在此情况下,只要有一份数据副本可以正常访问,分布式计算机存储系统就可以正常使用,以此提高系统的可用性。现在流行的分布式计算机存储系统大多采用了多副本技术,如HDFS,Cassandra,MongoDB,Hbase,Dynamo等。分布式计算机存储系统通常有两种架构,P2P对等架构和中心架构,对于这两种架构,在访问请求来临时,处理请求并协调工作的节点称为协调者节点,接收协调者节点请求的为非协调者节点。
在分布式计算机存储系统中,数据可以按照表结构进行管理,一个表结构是由若干列组成的。在一个节点内,表中的多行数据会以某列或者某几列的列值进行排序存储,这些列被称为排序列。用户在建表的时候通过指定排序列,就可以间接地控制数据在磁盘上的存储方式(该存储方式也被理解为数据的存储模型),从而得到不同的系统读写性能。
目前,计算机的磁盘结构可以被理解为是一维的:即一个数据集在持久化到磁盘上时,会将数据按照某种方式排序,逐一地存储在磁盘上。例如对于时间序列数据,用户可以指定按照时间顺序将数据存储在磁盘上。当处理针对时间的访问时,可以快速找到对应的数据段,避免扫描全部数据。而当处理针对其他属性的访问时,需要对全部数据进行遍历。传统的解决方法是在其他属性上建立索引,以加速在其他属性的访问,但这种方法会增加额外的空间开销。
对于上述问题,传统的多副本技术并没有带来访问能力的提升:多个数据副本在不同节点存储时,各数据副本均按照同一个属性进行排序存储,即具有相同的存储模型。因此,所有数据副本的访问响应能力相同。可见,多副本技术仅仅提升了系统可用性,并没有提升分布式计算机存储系统在不同属性上的访问速度。
发明内容
本发明的目的是针对现有的分布式计算机存储系统只针对单个属性访问较快的问题,提出一种分布式计算机存储系统中数据副本异构存储与访问方法,本方法将不同数据副本按照用户访问特点按不同属性排序存储,从而使分布式计算机存储系统中数据的多个数据副本能够快速响应用户在数据不同属性上的访问请求,使得多副本技术在提高系统可用性的基础上,还提升了系统的访问性能。本发明中,由于各个数据副本在相应节点(磁盘)上的存储模型不同,故称作数据副本异构存储。
本发明提出的分布式计算机存储系统中数据副本异构存储与访问方法,采用如下技术方案:
记分布式计算机存储系统的节点集合为S,其中A是协调者节点,其他n个节点为非协调者节点;系统中的数据由k个属性组成,记系统中各数据的数据副本数均为n,以上属性均由用户设置;该方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711024532.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置