[发明专利]一种多源异构关系型数据库数据的增量采集方法有效
申请号: | 202110670212.0 | 申请日: | 2021-06-17 |
公开(公告)号: | CN113407538B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 余增文;张宏;高峰;李咏 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/21;G06F16/23;G06F16/28 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 辛海明 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多源异构 关系 数据库 数据 增量 采集 方法 | ||
本发明涉及一种多源异构关系型数据库数据的增量采集方法,属于数据仓库或者数据中台领域。本发明在数据采集过程中,利用源数据库表的记录进行哈希运算,得到记录的哈希值,与目的表中存储的哈希值进行对比,通过对记录集的排序,能够加快源数据表记录集与目的数据表记录集的对比时间复杂度。能够实现快速的增量数据采集。本方法对不依赖多源异构数据库的存储技术,利用通用的读取数据方式,并在内存中计算,适用多种数据库。因此,本发明在多源异构的关系数据库中适合快速大批量进行增量采集。
技术领域
本发明属于数据仓库或者数据中台领域,具体涉及一种多源异构关系型数据库数据的增量采集方法。
背景技术
近年来,随着企事业单位数字化转型的加速,数据中台成为数字化转型的利器,很多企业提出了“中台战略”,其目的之一就是实现经营数据的集中存储和管控,由于企业正在使用的业务系统存在多种异构数据库的可能性,因此采集各原业务系统的数据成为亟待解决的问题,而增量采集是实施过程中需要重点考虑的问题。
实现增量采集的关键是准确快速的捕获变化数据,优秀的增量采集机制要求能够将业务系统中的变化数据按一定的频率准确地捕获,同时不能对原业务系统造成太大的压力,影响现有业务。相对全量抽取而言,增量抽取的设计更复杂,实现一种将全量抽取过程自动转换为增量抽取过程的方法,前提是必须捕获变化的数据,增量数据采集中常用的捕获变化数据的方法如表1所示:
表1增量数据抽取常用方法
通过上表可知,每种方法都有一定的局限性,适用的场景也各不相同,如果有一种通用的数据增量采集方法,在保证数据完备性、低侵入性、高抽取性能等指标上达到基本平衡,在工程应用中将是一个不错的选择。本发明正是在此背景下产生的,通过对全表比对方式的采集模式创新及性能改进,加上其自身具备的低侵入性和数据高完备性,增强了工程实践时的可用性。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种多源异构关系型数据库数据的增量采集方法,满足多源异构的数据库之间的数据采集需求。
(二)技术方案
为了解决上述技术问题,本发明提出一种多源异构关系型数据库数据的增量采集方法,该方法包括如下步骤:
S1、目标表检查步骤:读取源数据库表的元数据,并检查目标库表是否符合采集要求,符合采集要求则进入后续读取数据步骤,否则进入目标表调整步骤;
S2、目标表调整步骤:对于目标库表不符合采集要求的情况,删除目标库表中的目标表,然后根据源数据库表的元数据结构及目标数据库类型,自动生成目标库表DDL语句,并创建目标表,其中,DDL语句还在目标表中建立扩展的哈希字段;
S3、读取数据步骤:读取源表和目标表数据,对于源表中的每条记录,按照元数据中的字段顺序对记录值进行字符串拼接计算,并对拼接后的字符串进行哈希运算得到哈希值,内存中存储所有的记录值及运算得到的哈希值,同时所有的哈希值按照字符串序列进行升序排列,由此构成源数据表记录集;对于目标表中的数据,直接按照扩展的哈希字段进行升序排序并读入内存,由此构成目标数据表记录集;
S4、数据对比步骤:把内存中存储的源数据表记录集与目标数据表记录集进行比对,对于仅出现在源数据表记录集中的记录,标记为新增;对于仅出现在目标数据表记录集中的记录,标记为删除;
S5、历史数据记录步骤:在对目标表执行数据新增和删除操作时,将目标表新增和删除的数据存入历史数据表中;
S6、数据更新步骤:对于源数据表记录集中被标记为新增的记录,在目标库表中执行新增记录的操作;对于目标数据表记录集中被标记为删除的记录,在目标表中执行删除记录的操作。
进一步地,该方法循环执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110670212.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置