[发明专利]一种基于数据流混合编排的分析模型构建方法及系统有效
申请号: | 202010772705.0 | 申请日: | 2020-08-04 |
公开(公告)号: | CN112130812B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 陈欣洁;李建广;余智华;袁宝东;冯凯 | 申请(专利权)人: | 中科天玑数据科技股份有限公司 |
主分类号: | G06F8/20 | 分类号: | G06F8/20 |
代理公司: | 北京沁优知识产权代理有限公司 11684 | 代理人: | 郭峰 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据流 混合 编排 分析 模型 构建 方法 系统 | ||
1.一种基于数据流混合编排的分析模型构建方法,其特征在于:所述基于数据流混合编排的分析模型构建方法包括以下步骤:
拆分处理子任务,接收分析任务的数据流转,并将分析任务按照分析流程拆分为处理子任务;
修饰处理子任务,为处理子任务定义:数据输入、数据输出及处理逻辑;
封装分析任务,将分析任务封装为编码结构的数据流图;
转换语言格式,将数据流图转换为标记语言格式的任务流图;
调度执行,将任务流图解析,并进行分发调度执行;
生成分析结果,返回调度执行的执行结果,得到分析结果;
所述拆分处理子任务步骤中,所述分析任务的数据流转包括分析数据集D和分析流程S,分析流程S记为S={A1,A2,…,An},其中Ai为分析流程S中的第i个处理子任务;
所述修饰处理子任务步骤中,为拆分处理子任务步骤中所拆分的每个处理子任务An,定义统一标准的数据输入、数据输出及处理逻辑;
所述封装分析任务步骤中,为将分析任务封装为编码结构有向无环的数据流图;
所述数据流图包括组件节点及边;
所述转换语言格式步骤中,采用XML流程定义语言进行定义描述封装分析任务步骤所得数据流图;
所述转换语言格式步骤包括以下步骤:
遍历Dag图中的所有处理组件,对其输入进行初始化;
基于Dag图中的连线关系,构建图中所有模块组件的邻接表结构;
根据处理组件状态,通过图深度优先遍历获得图中的活跃节点;
根据活跃节点及边构建处理组件的输入输出文件映射关系;
根据活跃节点及边生成HPDL任务工作流图;
根据图中处理组件的运行状态及组件之间的依赖关系,寻找图中需要重新执行的组件即活跃节点,需重新执行的组件需符合以下规则:
R’1:节点为处理组件,且组件运行状态为未执行、失败、杀死,则该处理组件为活跃节点;
R’2:节点为处理组件,从当前处理组件开始,其祖先节点中有运行状态为未执行、失败、杀死,则该处理组件为活跃节点。
2.根据权利要求1所述基于数据流混合编排的分析模型构建方法,其特征在于:在遍历Dag图中的所有处理组件,对其输入进行初始化步骤中,需要对图中的所有处理组件的输入节点进行初始化。
3.根据权利要求2所述基于数据流混合编排的分析模型构建方法,其特征在于:所述调度执行步骤中,采用Oozie调度框架执行工作流任务的解析与调度。
4.一种基于数据流混合编排的分析模型构建系统,其特征在于:所述基于数据流混合编排的分析模型构建系统采用如权利要求1-3任一种基于数据流混合编排的分析模型构建方法进行建模。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科天玑数据科技股份有限公司,未经中科天玑数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010772705.0/1.html,转载请声明来源钻瓜专利网。