[发明专利]一种数据库集群批量快速加载数据的方法及加载系统在审
申请号: | 201510778859.X | 申请日: | 2015-11-16 |
公开(公告)号: | CN105447110A | 公开(公告)日: | 2016-03-30 |
发明(设计)人: | 赵伟;武新;王洪越;杨伟伟 | 申请(专利权)人: | 天津南大通用数据技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300384 天津市西青区华苑产*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据库 集群 批量 快速 加载 数据 方法 系统 | ||
技术领域
本发明涉及数据库集群的加载技术,尤其涉及一种数据库集群批量快速加载数据的方法。
背景技术
随着信息化技术的快速发展,一个企业的用户数量、数据量均呈现爆炸式增长,在业务量提高的同时,数据库的访问量和数据量快速增长对数据库处理能力和计算强度也相应增大,使得单一节点数据库根本无法承担。在这样一个背景下,大型分布式数据库集群产生了,所谓数据库集群,是指利用两台或多台数据库服务,构成一个虚拟单一数据库逻辑映像,像单数据库那样,向客户端提供透明的数据服务。
在数据库集群系统中,提供了数据的分布式存储以及并行运算功能。对于分布式存储,其表现是一张表(例如Table1)的数据分别存储在多个集群节点上,而在集群的外部(例如应用系统)使用Table1表时,看到的是表Table1的全部数据,无法看到集群内部数据的分布情况;对于并行运算,其表现是,针对Table1的查询操作,可以在集群内部的多个集群节点上并行执行查询操作,进而提高数据的访问速度。
由于数据库集群的分布表特性决定,向数据库集群插入数据的时候,需要由集群节点依据表的分布规则确定插入数据所归属的集群节点,并由归属节点执行数据存储操作。通常,在数据库集群中提供单条数据插入功能与多条数据批量插入功能。而在数据库集群中,采用最多的是批量插入功能,如图1所示。以一个三节点的集群为例,向数据库集群中批量插入数据的一般方法如图2所示是:
(1)客户端与集群节点2建立连接,发起批量数据加载请求,例如向表Table1中批量加载10万条数据
(2)集群节点2接收到客户端的批量数据加载请求,接收客户端发送的加载数据。集群节点2根据表Table1的分布规则拆分数据为三份,将属于本集群节点的数据发送到本集群节点,将属于集群节点1的数据发送到集群节点1,属于集群节点3数据发送到集群节点3
(3)集群节点2将属于本集群节点的数据存储到本集群节点的Table1中,集群节点1接收集群节点2发送的数据并存储到集群节点2的Table1中,并给集群节点2发送加载数据成功响应;集群节点3接收集群节点2发送的数据并存储到集群节点3的Table1中,并给集群节点2发送加载数据成功响应;
(4)集群节点2接收到集群节点1、集群节点3加载数据成功响应,并判断本集群节点加载数据成功,发批量加载数据响应给客户端;
(5)客户端接收到集群节点2的批量加载数据响应,本次批量加载数据完成
在上述过程中,集群节点2需要完成加载数据获取、拆分等工作,造成本集群节点的负载过大,进而影响了整个集群的数据加载速度。虽然其他节点也可以并发的接收客户端发起的批量加载任务,但是由于同样存在负载过重的原因,导致整个集群的数据加载速度不快,同时,由于没有统一的调度协调,会造成数据库集群的负载不均衡,且容易出现数据不一致问题。
发明内容
本发明所要解决的技术问题是在现有技术的基础上,提出一种数据库集群批量快速加载数据的方法,解决当前数据库集群加载数据慢且加载负荷不均衡的问题,并保证数据的一致性,提高数据库集群的高可用性。
本发明提供的实现方法包括包括如下步骤:
(1)数据库集群中设置加载系统,客户端建立与加载系统的连接以后,发起批量加载请求给加载系统;
(2)加载系统接收到客户端的批量加载请求,获取加载数据,并获取数据的分布规则,执行数据预处理操作,然后将数据分发到数据库集群的每个集群节点;
(3)每个集群节点接收加载系统分发的数据并存储到本解决节点中,发加载成功响应给加载系统;
(4)加载系统接收到每个集群节点的加载成功响应以后,发加载成功响应给客户端;
(5)客户端接收到加载系统的加载成功响应,本次批量数据加载完成。
进一步的,所述步骤(1)中包含以下处理,客户端通过配置文件的方式通知加载系统数据文件的位置;同时,配置文件中配置最大加载速度。
更进一步的,所述步骤(2)中,包含以下步骤:
a1、加载系统接收到客户端的批量加载请求以后,通过配置文件获取数据文件的位置,获取数据文件内容;
a2、加载系统与数据库集群系统建立连接,获取数据的分布规则,对数据进行清洗、过滤、按数据的分布规则切分数据并将切分后的数据对应到每个集群节点;
a3、加载系统与每个集群节点建立连接,将切分后的数据发送到对应的集群节点上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津南大通用数据技术股份有限公司,未经天津南大通用数据技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510778859.X/2.html,转载请声明来源钻瓜专利网。