[发明专利]基于DAG变换的大数据处理方法在审

专利信息
申请号: 202011390365.1 申请日: 2020-12-02
公开(公告)号: CN112417226A 公开(公告)日: 2021-02-26
发明(设计)人: 马成 申请(专利权)人: 江苏赛融科技股份有限公司
主分类号: G06F16/901 分类号: G06F16/901;G06F16/904;G06F9/451
代理公司: 北京同辉知识产权代理事务所(普通合伙) 11357 代理人: 廖娜
地址: 210000 江苏省南京市浦口区浦滨*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 dag 变换 数据处理 方法
【说明书】:

发明涉及一种基于DAG变换的大数据处理方法,其从实际的业务数据处理场景出发,构建AOV网并将AOV网从图形结构变换为边集数组的图存储结构,通过捕捉各顶点计算处理前后的状态信息通过单链表的指针指向关系,拼接所有链表结点的算子为一个spark或是flink的可执行表达式。由此,基于可视图形化的方式将复杂的数据处理场景AOV网化。适用于多种业务领域,在进行数据处理时可以轻松实现抽象到具体的转换。支持变换所有复杂DAG图结构为线性单链表结构,全覆盖标准AOV网特性的数据处理场景。拥有丰富类型并可扩展的数据处理节点库,可满足图形化界面组件在AOV网的应用。

技术领域

本发明涉及一种大数据处理方法,尤其涉及一种基于DAG变换的大数据处理方法。

背景技术

就现有的数据处理尤其是大数据处理来看,基于DAG结构进行数据处理的方式是大数据领域的一个不可或缺的组成部分。与简单的MapReduce处理任务方式不同,DAG是一个可以进行包含数据过滤、数据填充、数据转换等多种数据处理类型的组合且流程高度复杂的计算作业。

同时,DAG结构的作业场景其实普遍存在于很多领域,但是没有一个能够帮助作业人员从比较形象的可视界面出发去制定一个通用的DAG作业图,并且自动进行转换处理的方法,很难将领域中的DAG流程场景转化为一个可以自动运行计算的数据处理方法。

随着大数据技术的慢慢普及,越来越多的业务场景可以被转换到自动化的大数据平台进行分发处理。同时,在更多的领域,也存在越来越多简单或是复杂的业务场景,都希望能够转换到大数据计算平台进行处理,而这其中的大部分业务领域的抽象流程,都是一个标准的AOV网(即有向无环图DAG的一种)。

但是,到目前为止,还没有一个较完备的基于DAG的大数据处理方法,能够从图形化用户界面进行业务作业构建,再进行多道数据结构变换处理,并对接到多类型的数据计算平台(如spark或flink),从而完成整个复杂业务的大数据处理。

并且,结合现有的用于大数据分析处理的开源项目来看,有传统的Hadoop-mapreduce,也有近几年比较主流的Tez、Spark等DAG批处理引擎,包括目前主流的用于处理实时流式数据的flink计算引擎。数据的处理流程抽象后总是会偏向于一个DAG,其实正是因为我们各领域的业务流转场景,它就是一个完整的DAG。但是从领域业务流程到实际最后一环的数据处理,目前不管是上述的开源大数据项目,亦或是一些图形化工具,都无法实现将一个数据处理场景从业务抽象开始,经过多层转换处理,最终可对接到多类型大数据平台进行数据处理。

有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种基于DAG变换的大数据处理方法,使其更具有产业上的利用价值。

发明内容

为解决上述技术问题,本发明的目的是提供一种基于DAG变换的大数据处理方法。

本发明的基于DAG变换的大数据处理方法,其包括以下步骤:

步骤一,从实际的业务数据处理场景出发,构建AOV网;

步骤二,将AOV网从图形结构变换为边集数组的图存储结构,所述边集数组采用顶点数组和边数组组成;

步骤三,将边集数组的图存储结构变换为邻接表结构,所述邻接表结构为顶点数组和弧链表组成;

步骤四,对邻接表结构,进行拓扑排序处理,得到拓扑排序后的顶点数组;

步骤五,对顶点数组进行装饰,捕捉各顶点计算处理前后的状态信息;

步骤六,将顶点数组进一步转换为单链表,通过链表分别进行计算逻辑的拼接,最终形成可动态执行的线性数据计算流;

步骤七,通过单链表的指针指向关系,拼接所有链表结点的算子为一个spark或是flink的可执行表达式;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏赛融科技股份有限公司,未经江苏赛融科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011390365.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top