[发明专利]一种ETL流程在Spark集群中运行的方法和装置有效

专利信息
申请号: 201911320034.8 申请日: 2019-12-19
公开(公告)号: CN111159268B 公开(公告)日: 2022-01-04
发明(设计)人: 梅纲;袁松彪 申请(专利权)人: 武汉达梦数据库股份有限公司
主分类号: G06F16/25 分类号: G06F16/25
代理公司: 深圳市六加知识产权代理有限公司 44372 代理人: 向彬
地址: 430000 湖北省武汉市东湖新技术开*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 etl 流程 spark 集群 运行 方法 装置
【说明书】:

发明涉及数据库技术领域,提供了一种ETL流程在Spark集群中运行的方法和装置。方法包括从所述元数据库里获取被执行流程的元数据信息,包括ETL功能组件、组件属性信息、连接和连接属性信息;在Spark应用程序里建立一个有向图结构SparkGraph对象,所述SparkGraph对象由多个SparkNode对象构成,并且,所述SparkNode对象之间由SparkEdge对象关联。本发明在Spark应用程序里引入图结构蕴含RDD之间变换的血缘关系,方便的实现了ETL流程在Spark集群上的执行,并且,利用Spark集群的并行执行特性,提高了对大数据迁移转换的ETL流程执行速度。

【技术领域】

本发明涉及数据库技术领域,特别是涉及一种ETL流程在Spark集群中运行的方法和装置。

【背景技术】

ETL(英文全称为:Extract-Transform-Load)软件从源数据源处抽取数据到ETL服务器,在ETL服务器内部对数据做转换,最后将转换后的数据加载到目的数据源。按照迁移过程ETL将ETL功能组件分为数据读取类组件、数据转换类组件和数据装载类组件,数据读取组件负责从数据源处抽取数据到ETL内部缓存,数据转换组件负责对抽取到ETL的数据做转换操作,数据装载类组件负责将转换后的数据装载到目的数据源。

ETL软件将ETL功能组件组合来完成特定的数据迁移任务,ETL功能组件组合在一起称为流程,ETL服务器执行流程达到数据迁移的任务。一个流程里能包含一个或多个读取组件,每个读取组件后可以接一个或多个转换组件或装载组件,每个转换组件又可以接一个或多个转换或装载组件。ETL功能组件实现基本的单一功能,流程组合不同的ETL功能组件,实现丰富和功能强大的数据迁移任务。一个典型和完整的流程组合示意图1如下所示:

传统的ETL(如DMETL)在执行流程时,每一个ETL功能组件会生成一个或多个线程,上游ETL功能组件通过数据缓存队列向下游ETL功能组件发送数据,ETL功能组件的每一个输出连接都有一个缓存队列。上游组件的工作线程将数据加入缓存队列,下游组件的工作线程从缓存队列里获取数据。读取组件从数据源抽取数据后放入缓存队列,转换组件从上游组件的输出缓存队列里获取数据做转换操作后放入自己的输出缓存队列,装载组件从上游组件的输出缓存队列里取出数据后装载到目的数据源。

用户通过ETL流程设计器设计迁移流程,配置每个ETL功能组件的特定属性,保存到后台元数据库。流程被执行时,ETL服务器从元数据库获取流程的配置信息,为每个ETL功能组件生成工作线程,工作线程执行具体的数据读取、转换和装载工作。

以上是传统ETL的基本执行过程。

Spark集群是目前流行的数据处理和分析平台,基于弹性分布式数据集(Resilient Distributed Dataset,简写为:RDD)的变换完成预定的数据处理和分析任务,现在的目标是将ETL流程在Spark集群上运行。

Spark平台提供了一组API接口,用户通过API接口编写Spark应用程序(SparkApplication)实现定制的数据处理任务,Spark应用程序是一个由main()方法作为执行入口的程序,被Spark提交工具提交到Spark集群上执行。Spark是通过执行弹性分布式数据集(RDD)的一系列变换完成数据处理和分析任务的,Spark有两种类型的RDD变换操作:Transformation和Action,二者的区别在于代码执行到Transformation操作并不做实际的数据处理工作,只是RDD变换的记录路径,执行到Action操作时才真正开始做数据处理工作,从最初的RDD生成,沿着RDD的变换路径一直到Action操作,执行完毕后出输出处理结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉达梦数据库股份有限公司,未经武汉达梦数据库股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911320034.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top