[发明专利]一种基于分布式架构的多源异构数据融合执行引擎在审
申请号: | 201910653026.9 | 申请日: | 2019-07-19 |
公开(公告)号: | CN110347742A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 张晓双;王树峥;毛立花;林贵绪 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/27 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 214029 江苏省无锡市滨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 队列 多源异构数据 分布式架构 调度节点 引擎 融合 服务检测 放入 巡检 数据处理技术 队列移动 任务集合 客户端 多源 | ||
本发明公开了一种基于分布式架构的多源异构数据融合执行引擎,属于大数据处理技术领域。本发明的基于分布式架构的多源异构数据融合执行引擎包括调度节点和执行节点,调度节点接收到客户端提交的任务,放入待切分队列,当调度节点的巡检服务检测到待切分队列有任务时,切分任务为分片任务集合,将分片任务放入待启动队列,当调度节点的巡检服务检测到待启动队列分片任务数大于0时,查看执行中队列的分片任务数是否小于支持的阈值,如果小于阈值,将分片任务从待启动队列移动到执行中队列等待执行节点申领任务。该发明的基于分布式架构的多源异构数据融合执行引擎具有高性能、高容错、多源化,具有很好的推广应用价值。
技术领域
本发明涉及大数据处理技术领域,具体提供一种基于分布式架构的多源异构数据融合执行引擎。
背景技术
随着技术的高速发展与革新,大数据时代已经到来,在这个大数据时代,数据的处理与集成对大数据的分析与挖掘以及机器学习等方面有着举足轻重的意义。比如绘制一个完善的用户画像,需要对多维度的用户行为数据加以分析和挖掘,也就需要对多方面的数据进行整合。随着数据格式的增多、数据量的增大,以及非结构数据的爆发式增长,传统数据仓库面临越来越多的挑战,数据对接难度大,共享度低,目前数据转储领域还没有非常完善的数据融合执行引擎,实现一个高性能、高容错、多源化的数据融合执行引擎很有必要。
在数据融合过程中,既要关注数据转储的性能问题,也要关注数据的融合处理方式,还要关注数据的多源异构问题。数据转储旨在将数据从一种存储库迁移到另一种存储库。目前关系型数据库之间的转储可以通过自身的ETL工具,但功能受限,只能支持简单的搬迁工作。非关系型数据库比如hbase,MongoDB可以通过Kettle等ETL数据抽取转换工具,但Kettle支持的数据源有限,且转储效率低下。在这个大数据时代,数据量的爆发式增长给数据转储带来了挑战,随着业务需求的多样性变化,数据转储不仅仅只是数据的搬迁,可能需要对数据进行转换、处理、过滤等各种数据融合操作,所以数据处理、转换、迁移的高效转储是一项重要完善内容。在现有的通用性数据转储工具中,很难同时兼顾。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种高性能、高容错、多源化的基于分布式架构的多源异构数据融合执行引擎。
为实现上述目的,本发明提供了如下技术方案:
一种基于分布式架构的多源异构数据融合执行引擎,该执行引擎采用HA架构,包括调度节点和执行节点,调度节点接收到客户端提交的任务,放入待切分队列,当调度节点的巡检服务检测到待切分队列有任务时,切分任务为分片任务集合,将分片任务放入待启动队列,当调度节点的巡检服务检测到待启动队列分片任务数大于0时,查看执行中队列的分片任务数是否小于支持的阈值,如果小于阈值,将分片任务从待启动队列移动到执行中队列等待执行节点申领任务,当执行节点资源空闲时,向调度节点申请分片任务,领取到分片任务的执行节点启动任务容器,初始化分片任务的读写规则、过滤转换规则,启动读线程与写线程执行分片转储任务,分片任务执行结束时通知调度节点更新任务状态,当执行节点导致分片任务执行失败时,调度节点重新调度该分片任务为未执行状态给执行节点领取执行。
调度节点负责任务的拆分、调整、容错和进度,会把一个大人物切分成多个执行节点可以直接运行的分片任务,资源空闲的执行节点主动领取任务并执行。
该基于分布式架构的多源异构数据融合执行引擎支持的数据源包括MySQL、Oracle、PostgreSQL、SQLServer、DB2、MongoDB、Hive、HDFS、HBase、Elasticsearch、Kafka,同时支持横向扩展。
作为优选,所述调度节点通过Zookeeper进行分布式管理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910653026.9/2.html,转载请声明来源钻瓜专利网。