[发明专利]一种实现多集群间联合查询和快速数据迁移的方法在审
申请号: | 202011279673.7 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112306996A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 赵伟;李卓印;李宇豪 | 申请(专利权)人: | 天津南大通用数据技术股份有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/27;G06F9/455;G06F9/50 |
代理公司: | 天津企兴智财知识产权代理有限公司 12226 | 代理人: | 李彦彦 |
地址: | 300384 天津市滨海新区高新区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 集群 联合 查询 快速 数据 迁移 方法 | ||
本发明提供了一种实现多集群间联合查询和快速数据迁移的方法,包括:将每个用户的数据进行单独隔离,形成虚拟集群;每个虚拟集群为一个单独的子集群,每个子集群包含多种业务数据;多个子集群由同一个coordinator集群统一管理;多个子集群还均连接元数据集群,所述元数据集群存储着每个子集群的元数据。本发明所述的实现多集群间联合查询和快速数据迁移的方法实现多VC(虚拟集群)间的数据流转,因为多VC彼此共用相同的元数据服务,VC1可以直接把VC2的数据拉到本地,直接参与计算,这些过程都是在集群数据库内部执行的,对用户不感知。
技术领域
本发明属于数据库和大数据技术领域,尤其是涉及一种实现多集群间联合查询和快速数据迁移的方法。
背景技术
客户的很多业务数据分处在不同的部门和不同的数据库中,各数据库的数据独立存在,是孤岛(如图1所示)。客户经常因业务需要联合查询不同数据库中数据,因为各数据库彼此不感知,无法直接访问底层数据。以往的操作方式都是提前导出各部门的数据到其它数据库中,之后再做联合查询。为不影响业务效率,一般导出数据任务会被安排在非工作时间,数据不是即时的(如图2所示)。
发明内容
有鉴于此,为克服上述缺陷,本发明旨在提出一种实现多集群间联合查询和快速数据迁移的方法。
为达到上述目的,本发明的技术方案是这样实现的:
一种实现多集群间联合查询和快速数据迁移的方法,包括:
将每个用户的数据进行单独隔离,形成虚拟集群;
每个虚拟集群为一个单独的子集群,每个子集群包含多种业务数据;
多个子集群由同一个coordinator集群统一管理;
多个子集群还均连接元数据集群,所述元数据集群存储着每个子集群的元数据。
进一步的,每个所述虚拟集群包括多个存储单元以及与对应存储单元通信连接的计算单元;
每个所述计算单元还包括异步处理单元。
进一步的,多个虚拟集群间数据流转的方法如下:
S1、虚拟集群二接收抽取任务;
S2、把任务发送给虚拟集群二的计算单元:
S3、本地扫描数据,找到所需的数据行;
S4、分批物化一定行数数据,发送给异步发送单元;
S5、继续物化数据:
S6、等待所有数据发送完。
进一步的,异步处理单元进行异步发送的方法如下:
S401、异步处理接收处理任务:
S402、访问公共元数据集群,得到目标表在虚拟集群一的数据分布信息;
S403、计算得到每行数据在虚拟机群一的目标节点和表分片;
S404、把数据行依次推送到目标节点、目标表分片的发送队列;
S405、当队列中的数据达到设定行数时,压缩数据块,并发给目标虚拟集群的对应计算单元;
S407、虚拟集群一的计算单元接收数据,并直接存储到本地。
相对于现有技术,本发明所述的实现多集群间联合查询和快速数据迁移的方法具有以下优势:
本发明所述的实现多集群间联合查询和快速数据迁移的方法实现多VC(虚拟集群)间的数据流转,因为多VC彼此共用相同的元数据服务,VC1可以直接把VC2的数据拉到本地,直接参与计算,高效实现多集群间联合查询和快速数据迁移。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津南大通用数据技术股份有限公司,未经天津南大通用数据技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011279673.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种含有有机硅植物生长调节剂的增效组合物
- 下一篇:一种光伏储能百叶窗