[发明专利]基于Apache Oozie框架处理大数据的流程任务的调度方法有效
申请号: | 201811205109.3 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109471709B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 肖伟军 | 申请(专利权)人: | 深圳中顺易金融服务有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F16/22;G06F16/28 |
代理公司: | 深圳市凯达知识产权事务所 44256 | 代理人: | 刘大弯 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 apache oozie 框架 处理 数据 流程 任务 调度 方法 | ||
一种基于Apache Oozie框架处理大数据的流程任务的调度方法,包括客户端(前端)和服务器端(后端),所述客户端包括界面操作模块,所述服务器端包括服务端操作模块;其中,所述界面操作模块包括任务提交、任务操作、和任务监控三个模块;所述前端界面操作模块用于与用户操作的入口对接;所述服务器端包括控制层(Controller),业务层(Service)和存储层;所述存储层包括HDFS存储模块和Mysql存储模块。
技术领域
本发明涉及数据处理技术领域,尤其是一种基于Apache Oozie框架的大数据处理过程的流程调度方法。
背景技术
Apache Oozie一个基于工作流引擎的开源框架,是由Cloudera公司贡献给Apache的,它能够提供对Hadoop MapReduce和Pig Jobs的数据处理任务的调度与协调。Oozie需要部署到Java Servlet容器中运行。作为一个开源的工作流引擎,它提供了任务提交,任务启动,任务杀死,任务挂起,任务恢复,任务监控,任务重跑,任务调度等功能,Oozie官网提供了一个简单的查询界面。其架构设计如图1所示,Oozie提供了三种流程引擎
1,workflow:顺序执行流程节点,Oozie客户端提交流程描述文件到服务器端,Oozie服务器端解析流程文件,按照流程顺序执行节点。
2,Coordinator:协调器引擎,OOzie使用Coordinator来管理workflow,通过预定义的时间或基于数据条件来定时的启动workflow。
3,Bundle:oozie使用Bundle任务来将多个Coordinator组织成一个集合,使用buddle可以更方便的管理多个Coordinator协调器。
Oozie的最小执行单元是节点,包括Hadoop map-reduce,Hadoop file system,Pig,SSH,HTTP,eMail and Oozie sub-workflow等动作节点和start,end,kill,fork,join,decision等控制节点,同时Oozie还支持用户自定义节点,Oozie使用有向无环图(DAG)将各个流程节点组织成工作流,oozie对节点和工作流的描述都使用xml文档来描述,使用oozie开发,运维大数据的现状如图2所示。对于开发过程:
第一步:用户需要在本地使用xml编写流程任务,由于用户使用到不同的流程节点需要参考不同的schema约束,不同的流程节点的属性配置差异较大,一个工作流的文件结构会相对复杂。例举一个只有五个流程节点的workflow.xml文件:
workflow-app xmlns=uri:oozie:workflow:0.5name=${tableName}_wf
start to=etl-node/
action name=etl-node
spark xmlns=uri:oozie:spark-action:0.1
job-tracker${jobTracker}/job-tracker
name-node${nameNode}/name-node
master${master}/master
mode${mode}/mode
name${tableName}/name
classcom.cdw.etl.bdl.${tableName}/class
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳中顺易金融服务有限公司,未经深圳中顺易金融服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811205109.3/2.html,转载请声明来源钻瓜专利网。