[发明专利]基于MPP数据库的自助式实时数据比对方法及系统在审
申请号: | 202211708987.3 | 申请日: | 2022-12-29 |
公开(公告)号: | CN115982278A | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 张帆;董珊;王正文;叶艳;郝亮;王超然 | 申请(专利权)人: | 数字郑州科技有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/28;G06F16/25;G06F16/2455;G06F16/242;G06F16/248 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 周艳巧 |
地址: | 450000 河南省郑州市河南自贸试验区郑州片*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 mpp 数据库 自助式 实时 数据 方法 系统 | ||
本发明涉及数据处理技术领域,特别涉及一种基于MPP数据库的自助式实时数据比对方法及系统,通过构建用户比对需求中源数据和目标数据的比对参数,并将源数据和比对参数进行缓存,所述比对参数包含比对基准字段和比对信息项;将源数据加载至大规模并行处理架构MPP数据库,在大规模并行处理架构MPP数据库中利用比对参数来获取源数据和目标数据比对结果并输出。本发明利用分布式MPP数据库代替传统大数据数据库组件,在MPP数据库中能够大大提高数据比对处理速度,达到对业务大数据的近实时数据比对;让业务人员自助式无需任何代码或者SQL能力就可以通过操作Web交互界面页面快速得到待处理数据比对结果,大大降低技术门槛,便于实施应用。
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于MPP数据库的自助式实时数据比对方法及系统。
背景技术
随着计算机技术的发展,不但互联网中的数据呈爆发式增长,如今,很多大型业务系统中的数据,同样也较以前产生了大幅增长。而且不单是数据量的增长,随着微服务架构的流行,在一个大型系统中,可能有众多数据源,并且这些数据源又可能由多个异构数据源,如一个系统中含有MySQL/PostgresSQL数据库、Excel文件等不同数据源来存储业务数据。在一些业务场景还有数据分析需求中,经常需要对这些系统中管理的数据进行数据比对,甚至需要接收业务外部的数据和系统中的数据进行碰撞。
目前,异构数据数据比对常用技术有:1、通过数据同步工具至大数据平台如HDFS,利用大数据仓库对SQL的支持,如Hive、SparkSQL,用SQL对数据进行比对计算,参加图2所示。由于大数据组件的特性,数据计算任务调度比较重和相对的耗时,如果需要比对的数据需要进行加工计算,一般需要调度离线任务进行预计算,时效性会打折。并且不会SQL的业务人员也无法使用。2、通过脚本方式将需要比对数据查询出来预载进内存进行比对计算,参见图3所示。这个方式的脚本可以是由技术人员编写一个Python+Pandas的脚本,也可以是利用可视化工具如Kettle生成的脚本,总之不能直接通过一条SQL实现比对,也无法直接由业务人员操作。对于新增的数据源和外部数据、不能复用已有脚本,导致脚本管理困难。这种常用处理方式需要每次查询比对目标的全部数据,然后再在脚本运行的单机内存中进行比对计算。当数据量较大时往往出现内存溢出导致比对失败。因此,亟需一种自助式准实时的数据比对方案来满足业务人员使用。
发明内容
为此,本发明提供一种基于MPP数据库的自助式实时数据比对方法及系统,能够解决外部数据与大数据碰撞比对时的时效性及用户比对数据技术门槛要求等问题,便于实施。
按照本发明所提供的设计方案,提供一种基于MPP数据库的自助式实时数据比对方法,包含:
构建用户比对需求中源数据和目标数据的比对参数,并将源数据和比对参数进行缓存,所述比对参数包含比对基准字段和比对信息项;
将源数据加载至大规模并行处理架构MPP数据库,在大规模并行处理架构MPP数据库中利用比对参数对源数据和目标数据进行比对并输出,其中,目标数据在变动数据捕获后通过数据加工过程被加载至大规模并行处理架构MPP数据库。
作为本发明基于MPP数据库的自助式实时数据比对方法,进一步地,构建用户比对需求中源数据和目标数据的比对参数,并将源数据和比对参数进行缓存,包含:
首先,依据用户在用户交互界面选择的字段和信息项来生成用于待比对源数据和目标数据比对的比对参数;
然后,将用户上传的源数据上传至对象存储组件服务中进行中转存储,并利用任务消息队列存储当前待比对任务的比对参数。
作为本发明基于MPP数据库的自助式实时数据比对方法,进一步地,将用户上传的源数据上传至对象存储组件服务中进行中转存储时,通过调用对象存储服务OSS接口将用户上传的源数据上传至对象存储组件服务,并获取对象存储组件服务中源数据的ID信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数字郑州科技有限公司,未经数字郑州科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211708987.3/2.html,转载请声明来源钻瓜专利网。