[发明专利]一种基于广度优先搜索算法的ETL作业流程分析方法在审
申请号: | 201710566339.1 | 申请日: | 2017-07-12 |
公开(公告)号: | CN107315834A | 公开(公告)日: | 2017-11-03 |
发明(设计)人: | 陈涛;黄卓凡;张志聪;李笋;林志广 | 申请(专利权)人: | 广东奡风科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 东莞市神州众达专利商标事务所(普通合伙)44251 | 代理人: | 皮发泉 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 广度 优先 搜索 算法 etl 作业 流程 分析 方法 | ||
技术领域
本申请一般涉及ETL作业流程分析方法,特别地,本申请涉及一种基于广度优先搜索算法的ETL作业流程分析方法。
背景技术
大数据的爆发性增长,给大数据应用带来了挑战和新的机遇。大数据应用离不开海量数据加工,在有限的时间窗口内,将数据来源多、数据量大、数据到达时点不一、数据之间存在加工逻辑关系的数据加工到目标应用库,是一个巨大的挑战。
在大数据加工过程中,为了满足复杂、灵活多变的ETL作业流程,我们借助ETL工具软件或开发专门的ETL调度软件,来定义ETL作业流程,并解析ETL作业流程、调度和执行各ETL作业。通常情况下,ETL工具软件或者ETL调度软件具有ETL作业流程引擎,该引擎构建的方法使用传统方法,包含两部分内容:1、流程模型,满足复杂、灵活多变的流程定制,用来定义有多个ETL作业节点的ETL作业流程,或者一个ETL作业内部的数据加工流程;流程模型保存整个流程的属性,包括节点、节点类型(开始节点、ETL作业节点、分支节点、聚合节点、结束节点等)、流向、节点之间的依赖关系等,以模型化、参数化来体现数据加工逻辑和数据处理流程。2、调度和执行功能模块,根据流程模型解析ETL作业流程,运用状态机原理来调度和执行流程节点上的作业,并根据节点之间的依赖关系和节点状态来流转并决定下一个节点的运行。
图1是基于传统方法的ETL流程引擎示意图。左边是ETL作业流程定义图;中间是基于传统方法的ETL作业流程引擎,该引擎通过流程模型定义作业流程,通过运用“状态机”原理的作业调度模块进行ETL作业流程图的解析、作业的调度和执行;右图是ETL作业流程执行示意图,0、1、2、3、4、5、6为作业节点执行的顺序号,同一个顺序号的作业节点表示可以并行运行。
传统方法需要规范且完善的流程模型,以满足复杂、灵活多变的流程定制;需要强大的“状态机”对节点依赖关系和节点状态做出准确的判断,以调度和执行流程节点上的作业和进行流程的流转。基于传统方法的ETL作业流程引擎是一个庞大且复杂的系统,系统响应速度低、开发工作量大、维护成本高。
发明内容
本发明是为了克服传统方法的技术缺陷,一种基于广度优先搜索算法的ETL作业流程分析方法,以探索广度优先遍历算法在ETL作业流程图解析过程中的运用。广度优先搜索算法是最简单的图形搜索算法之一,也是很多重要的图形算法的原型;本方法原理简明、容易实现,适用于各种有向无环图的ETL作业流程,通用性、易用性和可维护性方面较传统方法优胜。
一种基于广度优先搜索算法的ETL作业流程分析方法,采用广度优先搜索算法对ETL作业流程图进行解析,根据各节点的依赖关系,计算各节点所处的层数,并将各作业节点按层数进行分层;ETL作业流程引擎按照由低层到高层的执行路径依次运行各层的ETL作业,最终完成ETL作业流程图中所有ETL作业的执行。
本发明适合各行业在ETL作业流程引擎中引用。基于流程模型和状态机原理等传统方法的ETL作业流程引擎是一个庞大且复杂的系统,系统响应速度低、开发工作量大、维护成本高。本发明是为了克服传统方法的技术缺陷,使用的广度优先搜索算法是最简单的图形搜索算法之一,也是很多重要的图形算法的原型;本方法原理简明、容易实现,适用于各种有向无环图的ETL作业流程,通用性、易用性和可维护性方面较传统方法优胜。
附图说明
图1为基于传统方法的ETL作业流程引擎示意图。
图2为基于广度优先搜索算法的ETL作业流程引擎示意图。
图3为ETL作业流程示意图。
图4为ETL作业流程图节点层数计算示意图。
图5为ETL作业流程图节点分层示意图。
图6为ETL作业流程图分层执行示意图。
具体实施方式
一种基于广度优先搜索算法的ETL作业流程分析方法,采用广度优先搜索算法对ETL作业流程图进行解析,根据各节点的依赖关系,计算各节点所处的层数,并将各作业节点按层数进行分层;ETL作业流程引擎按照由低层到高层的执行路径依次运行各层的ETL作业,最终完成ETL作业流程图中所有ETL作业的执行。
无环的有向图称为有向无环图,简称DAG(Directed Acyclic Graph)图,DAG图是一种较有向树更一般的特殊有向图,是一种广泛应用的模型,也适用于有依赖关系和先后执行次序的ETL作业流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东奡风科技股份有限公司,未经广东奡风科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710566339.1/2.html,转载请声明来源钻瓜专利网。