[发明专利]一种跨平台多引擎支持的海量数据迁移装置在审
申请号: | 201811384403.5 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109558392A | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 王任康;俞亚君;刘晓杰;李鸿飞 | 申请(专利权)人: | 南京数睿数据科技有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 黄智明 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 迁移 流程引擎 数据存储系统 原始数据存储 调度模块 海量数据 流程配置 迁移装置 数据特征 业务流程 跨平台 引擎 存储 变更 数据时效性 原始数据集 处理时延 处理效率 二次编码 计算引擎 快速切换 流程执行 引擎技术 可视化 数据集 调度 配置 保证 开发 | ||
本发明公开了一种跨平台多引擎支持的海量数据迁移装置,包括原始数据存储系统、迁移数据存储系统、迁移流程配置模块、流程引擎执行模块、流程引擎调度模块,其中原始数据存储系统用于存储待迁移的原始数据集,迁移数据存储系统用于存储迁移后的数据集;迁移流程配置模块用于可视化配置迁移的业务流程逻辑;流程引擎执行模块用于实际的迁移流程执行;流程引擎调度模块用于迁移的业务流程的定时调度。本发明的装置保证了数据可以使用最适合数据特征的引擎技术进行迁移处理,最大程度的降低处理时延、提升处理效率、降低迁移成本,并且可以在数据时效性变更、数据体量变更时快速切换计算引擎以适应新的数据特征而不用二次编码开发。
技术领域
本发明属于数据迁移技术领域,具体来说涉及一种可以跨平台运行、支持多种引擎的海量数据迁移的方法和系统。
背景技术
数据转移装置是指将来源于不同系统的数据从逻辑上和物理上聚合在一起进行集中管理,以供用户对数据进行研究分析,得出有价值的结论。
数据的容量和数据的类型在过去的三十年间均大幅增长,数据仓库技术从无到有,无论是Kimball还是Inmon提出的数据仓库方法论,为了满足数据的存储以及数据的分析需求,都需要一种数据移植装置,这种装置在多年的发展过程中也显露出了不少急需改进的问题和缺陷。
传统的数据移植装置主要关注于数据架构和相关编程模型的ETL、ELT、增量抽取以及EAI类型等。然而,在数据量极度膨胀的大数据背景下,这些技术需要根据数据规模、数据存储物理介质、数据处理复杂度等需求进行修改,同一个移植装置可能无法同时在集中式计算的环境中与分布式计算的环境中运行,亦可能无法同时关联处理分布在不同存储介质上的数据。因为传统的数据移植装置的计算引擎主要是依赖于关系型数据库或者集中式计算引擎,对于异构数据关联处理或者分布式引擎的支持都有局限性,如果需要对异构数据进行关联处理移植或者使用分布式计算引擎进行处理移植,则需要进行大量的编码、调测工作,大大增加了开发的复杂度,导致成本的剧增,造成的时间和经济的极大浪费。
发明内容
有鉴于现有技术中存在的上述问题,本发明是给出一种数据迁移装置,其支持对跨平台数据的关联处理,包括关系型数据库、普通文件系统的文件、分布式文件系统的文件、FTP的文件、NoSQL数据库等,并且支持多种数据处理引擎,包括集中式计算引擎、分布式计算引擎、内存计算引擎、实时计算引擎等。在对多源跨平台异构数据进行关联处理或者运行在不同的数据处理引擎上时,只需要简单可视化配置即可达成目标,无须人工编码,将大大降低开发的复杂度,节约大量的时间和经济成本。
具体来说,本发明采用了以下技术方案:
一种跨平台多引擎支持的海量数据迁移装置,其特征在于,所述装置包括原始数据存储系统、迁移数据存储系统、迁移流程配置模块、流程引擎执行模块、流程引擎调度模块,其中原始数据存储系统用于存储待迁移的原始数据集,迁移数据存储系统用于存储迁移后的数据集;迁移流程配置模块用于可视化配置迁移的业务流程逻辑,其提供统一的可视化编辑界面对迁移的源和目标以及计算过程进行配置,此模块对业务流程的逻辑进行定义;流程引擎执行模块用于实际的迁移流程执行,由其决定流程具体的运行的载体;流程引擎调度模块用于迁移的业务流程的定时调度。
其中,迁移流程配置模块对数据的计算过程进行高度抽象,将不同的算法抽象成算子,每个算子对应一类数据计算操作,通过组装不同的算子,能够完全覆盖数据的计算需求。在以上过程中,抽象的结果为生成一个有向无环图,该图描述了数据转换的逻辑过程,随后流程引擎执行模块对该有向无环图进行遍历,并对每个结点的事件进行翻译,得到不同的计算引擎的代码。其中,执行遍历的算法为深度优先遍历算法或者广度优先遍历算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京数睿数据科技有限公司,未经南京数睿数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811384403.5/2.html,转载请声明来源钻瓜专利网。