[发明专利]一种集群存储系统的数据管理方法及系统有效
申请号: | 201210276461.2 | 申请日: | 2012-08-03 |
公开(公告)号: | CN102855284A | 公开(公告)日: | 2013-01-02 |
发明(设计)人: | 刘爱贵 | 申请(专利权)人: | 北京联创信安科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集群 存储系统 数据管理 方法 系统 | ||
技术领域
本发明涉及集群存储技术领域,尤其涉及一种集群存储系统的数据管理方法及系统。
背景技术
云存储和大数据背景下,非结构化数据呈现爆炸式的增长,面对海量的存储系统,高效的元数据管理和数据定位是个巨大的挑战,直接影响系统的扩展性、性能、可靠性和稳定性等。
现有技术方案主要是采用专用元数据服务来管理元数据,包括集中式和分布式两种模型,数据定位通过向元数据服务器进行查询实现。图1为现有技术中元数据服务模型示意图,如图1所示,图1(a)为集中式元数据服务模型,该模型提供一个中央元数据服务器负责元数据的存储和客户端查询请求,它提供统一的文件系统命名空间,并处理名字解析和数据定位等访问控制功能。传统的NAS系统中,I/O数据流需要经过服务器,而分布式文件系统中,I/O数据流不需要经过元数据服务器,由客户端与存储节点直接交互。这个架构上的变革,使得控制流与数据流分离开来,元数据服务器和存储服务器各司其职,系统扩展性和性能上获得了极大的提升。显而易见,集中式元数据服务模型的最大优点就是设计实现简单,本质上相当于设计一个单机应用程序,对外提供网络访问接口即可,如Socket,RPC,HTTP REST或SOAP等。元数据服务设计实现的关键是OPS吞吐量,即单位时间处理的操作数,这对集中式元数据服务模型尤其关键,因为会受到系统Scale-Up方面的限制。为了优化OPS,该模型对CPU、内存、磁盘要求较高,条件允许的情况下尽量使用高性能CPU、大内存和高速磁盘,甚至后端存储可考虑使用高端磁盘阵列或SSD。在软件架构方面设计,应该考虑多进程/线程(池)、异步通信、Cache、事件驱动等实现机制。但集中式元数据服务模型存在性能瓶颈和单点故障问题。
性能瓶颈,这种模型下元数据服务器在负载不断增大时将很快成为整个系统性能的瓶颈。根据Amdahl定律,系统性能加速比最终受制于串行部分的比重,这决定了系统使用并行手段所能改进性能的潜力。这里,元数据服务器就是串行的部分,它直接决定着系统的扩展规模和性能。文件元数据的基本特性要求它必须同步地进行维护和更新,任何时候对文件数据或元数据进行操作时,都需要同步更新元数据。客户端访问分布式文件系统时,都需要先与元数据服务器进行交互,这包括命名空间解析、数据定位、访问控制等,然后才直接与存储节点进行I/O交互。随着系统规模不断扩大,存储节点、磁盘数量、文件数量、客户端数据、文件操作数量等都将急剧增加,而运行元数据服务器的物理服务器性能毕竟终究有限,因此集中式元数据服务器将最终成为性能瓶颈。
单点故障(SPOF,Single Point of Failure),这个问题比性能瓶颈更加严重。整个系统严重依赖于元数据服务器,一旦出现问题,系统将变得完全不可用,直接导致应用中断并影响业务连续性。物理服务器所涉及的网络、计算和存储部件以及软件都有可能发生故障,因此单点故障问题潜在的,采用更优的硬件和软件只能降低发生的概率而无法避免。目前,SPOF问题主要是采用HA机制来解决,根据可用性要求的高低,镜像一个或多个元数据服务器(逻辑的或物理的均可),构成一个元数据服务HA集群。集群中一台作为主元数据服务器,接受和处理来自客户端的请求,并与其他服务器保持同步。当主元数据服务器发生问题时,自动选择一台可用服务器作为新的主服务器,这一过程对上层应用是透明的,不会产生业务中断。HA机制能够解决SPOF问题,但同时增加了成本开销,只有主服务器是活动的,其他服务器均处于非活动状态,对性能提升没有任何帮助。
图1(b)为分布式元数据服务模型,即使用多台服务器构成集群协同为分布式文件系统提供元数据服务,从而消除集中式元数据服务模型的性能瓶颈和单点故障问题。这种模型可以细分为两类,一为全对等模式,即集群中的每个元数据服务器是完全对等的,每个都可以独立对外提供元数据服务,然后集群内部进行元数据同步,保持数据一致性,比如ISILON、LoongStore、CZSS等。另一类为全分布模式,集群中的每个元数据服务器负责部分元数据服务(分区可以重叠),共同构成完整的元数据服务,比如PanFS,GPFS,Ceph等。分布式元数据服务模型,将负载分散到多台服务器解决了性能瓶颈问题,利用对等的服务器或冗余元数据服务分区解决了单点故障问题。分布式看似非常完善,然而它大大增加了设计实现上的复杂性,同时可能会引入了新的问题,即性能开销和数据一致性问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京联创信安科技有限公司,未经北京联创信安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210276461.2/2.html,转载请声明来源钻瓜专利网。