[发明专利]一种分布式文件系统及其数据访问方法在审
申请号: | 201310574272.8 | 申请日: | 2013-11-15 |
公开(公告)号: | CN103647797A | 公开(公告)日: | 2014-03-19 |
发明(设计)人: | 林昭文;陈立南;赵彬;郑楠;马严;吴军;黄小红;赵钦 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张驰;宋志强 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 文件系统 及其 数据 访问 方法 | ||
技术领域
本发明属于分布式存储技术领域,特别是一种分布式文件系统及其数据访问方法。
背景技术
分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。现有的分布式文件系统主要采用客户机/服务器模式,文件系统的管理者及所存储的数据分散在不同的节点上,通过网络互连。分布式文件系统可以为多个客户端提供服务,允许跨多个存储服务器共同使用一个全局命名空间,并实现了I/O和数据的智能分散以提高系统性能。目前应用较为广泛的分布式文件系统主要有GFS和Hadoop分布式文件系统(HDFS)。
GFS是由Google开发的可扩展的分布式文件系统,用于大型、分布式、对大量数据进行访问的应用,它运行于廉价的普通硬件之上,可以提供容错功能,可为大量的用户提供总体性能较高的服务。HDFS在系统架构上与GFS与类似,解决问题所采用的解决思路也基本一致。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。它能提供高吞吐量的数据访问,非常适合TB级以上的大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。
HDFS的设计概念首先就是面向大文件,最初是作为搜索引擎的底层文件系统来为搜索引擎服务的。因为目前的搜索引擎蜘蛛所抓取的网页数目已经达到亿级,所以HDFS的存储数据量达到了上百TB级,甚至是PB级的规模。由于HDFS是部署在廉价的计算机上的系统,因此硬件不够稳定;另外,由于存储的文件数据量和集群规模的不断加大,因此要求HDFS能够及时处理硬件的失效。为了保证系统的可靠性,HDFS为数据块创建多个副本,并放置在群的不同数据块服务器中,MapReduce就在数据副本存放的地方进行处理。
HDFS支持一次写入多次读取的I/O模式。在任何情况下,只允许有一个写入的客户端,数据写入之后不允许修改。但允许多个客户端并发地读取一个文件。这是由于HDFS面向的应用场景所决定的,在搜索引擎中客户端会经常读取文件但不会去修改这个文件。HDFS将大文件切割成多个大小为64M的块,块以普通文件的形式存储在各个节点上。默认情况下,每个块都会有3个副本。通过此种方式,来达到数据安全及高可靠性的目的。一台机器出现故障,系统能够通过检测,自动选择一个新的节点复制一份。
在HDFS中,有一个元数据服务器(NameNode)和多个数据块服务器(DataNode),可以为一个或多个客户端提供服务。简单来说,客户端对文件进行读写操作,只需与NameNode交互,获得到文件的元数据信息,然后再与DataNode通信,进行实际数据的读取或写入。HDFS提供了一个类似于树结构的文件系统,结构树存在于NameNode的内存中,有利于提高文件的操作效率。
在分布式文件系统中,虽然一个文件的元数据的大小相对于NameNode的磁盘容量来说,是非常小的,但整个分布式文件系统处理量的50%到80%都是对元数据的处理,整个分布式文件系统性能核心也在于元数据的服务性能,因此,元数据管理必须具有极高的稳定性和扩展性,为分布式文件系统提供高速可扩展的元数据组织和查询服务。
通过对HDFS的架构分析可以得知,在HDFS中为整个系统提供元数据服务的只有一个NameNode服务器,整个HDFS的性能、可靠性以及扩展性就取决于NameNode服务器。在HDFS的大多数应用场景中,轻量级的NameNode节点还足以满足文件系统的需要。但在大规模的应用中,随着数据量的不断增长,存储规模的扩大,系统不断增加数据块节点DataNode,元数据的量也就相应地增加,特别是在图片、视频、文档、语音等各种应用场景中,NameNode需管理着大量的小文件的元数据,NameNode节点将变得不堪重负,成为整个系统的瓶颈所在,主要表现为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310574272.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种内斜式吊篮装置
- 下一篇:一种移动终端广告调用方法和系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置