[发明专利]一种源分布式数据库捕获数据的系统及方法有效
申请号: | 201410488046.2 | 申请日: | 2014-09-22 |
公开(公告)号: | CN104239542B | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 孙志云;郭美思;吴楠 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 王丹,李丹 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 数据库 捕获 数据 系统 方法 | ||
技术领域
本发明涉及分布式计算机集群系统数据库技术,尤其涉及分布式集群系统中开源分布式数据库捕获数据的系统及方法。
背景技术
随着数据量呈现爆炸式的增长,单个计算机的运算处理能力及存储能力已经远远不能满足数据存储及处理的要求。因此,计算机分布式的体系结构受到了用户的关注及好评。在分布式体系结构中,可以将多台廉价的计算机搭建成分布式集群系统,由此使得每台机器上都能运行相应的任务,同时也能并行地处理用户的需求。分布式集群系统具有高性能、高可靠、高扩展及低成本的特点。HBase是用于分布式集群系统的开源的分布式数据库。利用HBase技术可在廉价的服务器上搭建起大规模结构化存储集群,具有很高的数据吞吐量和很好的结构伸缩能力,并且不仅能够同时处理结构化数据和非结构化的数据,还能通过实时随机读写来补充分布式文件系统(HDFS)的不足。因此,对HBase定期捕获数据是非常重要的。
在传统的数据库中,捕获数据的方法要考虑事务的一致性。数据库通过日志的方式保证事务的一致性,即在所有的事务提交后才能标记完成。在该过程中,如果有错误发生,会通过日志回缩的方式回到当前系统中的事务。因此,在捕获传统数据库中的数据时,要保证每个数据库中的保存记录与源数据库一致。在捕获数据的保存记录时一般采用写时拷贝的方式来保存数据记录。
在HBase分布式数据库中,对HBase表中的合并操作和删除操作会使得数据发生改变。在一些应用中,用户需要使用各个阶段HBase表中的数据。HBase中存放数据的框架图如图1所示。区域服务器(HregionServer)内部管理了一系列的区域(Hregion)对象,每个Hregion对应了Hbase表中的一个域(Region),HRegion中由多个存储文件(Hstore)组成。每个Hstore对应了Hbase表中的一个列族(ColumnFamily)的数据存储,每个ColumnFamily其实就是一个集中的存储单元。Hstore是HBase存储的核心,它由两部分组成,一部分是缓存(MemStore),一部分是文件(StoreFile)。MemStore是内存缓存,用户写入的数据首先放到MemStore中,直到MemStore达满就会刷新到StoreFile中形成底层HDFS的HFile文件。因此,在HBase定期捕获数据时需要对MemStore和HFile文件保存记录。而HDFS的HFile文件是在区域服务器中管理的,因此,需要对区域服务器的这些记录进行分布式的保存。在HBase中主服务(Master)与RegionServer通信框架图如图2所示。
由于现有的HBase技术尚无一个实现对HBase定期捕获数据的具体实现途径和方法,使得HBase分布式数据库不能满足用户在不同阶段使用HBase表相应的数据信息的要求。因此,为满足用户对HBase的使用需求,需要提供一种HBase定期捕获数据的方法,能够让用户在不同阶段均放心地使用HBase表中的数据。
发明内容
本发明所要解决的技术问题是提供一种源分布式数据库捕获数据的系统及方法,能够让用户在不同阶段均放心地使用HBase表中的数据。
为了解决上述技术问题,本发明提供了一种源分布式数据库捕获数据的方法,包括:
当区域服务器开始保存记录时,将内存缓存中的数据刷新到分布式文件系统的文件里,然后针对所有要保存记录的分布式文件系统的文件创建相应链接的引用文件,并将引用文件存储到标记为本服务器的文件集合中。
进一步地,该方法还包括:
区域服务器在收到保存记录的请求后通知主服务模块;
主服务模块根据该请求将需要保存记录的信息记录名称通知到相应的区域服务器,并针对相应的区域服务器创建相应的文件集合;
区域服务器在成功完成保存记录的操作时,将存有引用文件的文件集合返回给主服务模块;
主服务模块在收到区域服务器返回的文件集合后,将其存储到相应的区域服务器的文件集合中。
进一步地,区域服务器收到的保存记录的请求,是由用户发出的请求,或是由源分布式数据库系统定期自动发出的请求。
进一步地,源分布式数据库是HBase,则各区域服务器执行保存记录的工作流程具体包括:
创建标记本区域服务器的文件夹,文件夹即文件集合;
判断本区域服务器是否满足保存记录的条件,即查看所有的内存缓存中是否有数据,是则将内存缓存中的数据刷新到内存文件中,然后将内存文件的数据存储到分布式文件系统的文件中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410488046.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置