[发明专利]一种基于map reduce的增量数据同步的方法和装置有效
申请号: | 202010645879.0 | 申请日: | 2020-07-07 |
公开(公告)号: | CN112000649B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 高东升;梅纲 | 申请(专利权)人: | 武汉达梦数据库股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/23;G06F16/25;G06F16/27 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 向彬 |
地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 map reduce 增量 数据 同步 方法 装置 | ||
本发明涉及数据仓库领域,特别是涉及一种基于map reduce的增量数据同步的方法和装置。主要包括:Mapper阶段,按照预设分片分别读取增量源数据和增量目的数据;对每一个增量源数据和/或每一个增量目的数据进行清洗转换;将增量源数据和增量目的数据分别映射为相应的key/value结构,写入map reduce的context;Reducer阶段,从context中接收每一对key/value结构归约后生成的key/values结构;根据key/values结构的类型判断需进行的同步操作;根据需进行的同步操作对增量数据进行同步。本发明利用hadoop map reduce框架对大规模数据并行比对和并行同步,提高了增量数据比对和同步的效率。
【技术领域】
本发明涉及数据仓库领域,特别是涉及一种基于map reduce的增量数据同步的方法和装置。
【背景技术】
数据迁移同步过程中,增量数据同步是一种常见的数据同步方式。在增量数据同步的过程中,从数据源有效捕获增量数据,根据增量数据对增量目的进行同步,是数据处理生产环境中的必备方案。
目前效率较高的增量比对同步方法中,必须对增量源和增量目的根据相同的唯一特征标识进行相同的顺序排列,然后按照排序后的顺序获取增量源和增量目的的对应关系,进而获取差异数据。但是,在增量源和增量目的数据规模较大的情况下,进行超大规模数据的排序是一个比较耗时的操作,并且排序后比对差异的过程一般也只能在单线程中处理。同时,在进行增量同步时,需要对于非增加或非删除操作进行全部或部分字段内容的比较,以判断增量源和增量目的中的字段内容是否相同,从而判断是否对增量目的执行更新操作,这一操作也影响了增量同步的效率。
鉴于此,如何克服该现有技术所存在的缺陷,解决现有增量比对同步方法效率较低的现象,是本技术领域待解决的问题。
【发明内容】
针对现有技术的以上缺陷或改进需求,本发明解决了现有增量比对同步方法中因需要进行大规模数据的排序和单线程比对而导致的增量比对和同步效率较低的问题。
本发明实施例采用如下技术方案:
第一方面,本发明提供了一种ETL增量数据同步的方法,具体为:Mapper阶段,按照预设分片分别读取增量源数据和增量目的数据;对每一个增量源数据和/或每一个增量目的数据进行清洗转换;将增量源数据和增量目的数据分别映射为相应的key/value结构,写入map reduce的context,其中key为增量源或增量目各自的唯一标识符序列化后的数据;Reducer阶段,从context中接收每一对key/value结构归约后生成的key/values结构;根据key/values结构的类型判断需进行的同步操作;根据需进行的同步操作对增量数据进行同步。
优选的,将每一组对应的增量源数据和增量目的数据分别映射为相应的key/value结构,具体包括:将增量源数据和增量目的进行清洗转换后的数据分别进行序列化;将序列化后的增量源数据的开头添加增量源标志,序列化后的增量目的数据的开头添加增量目的标志;将序列化并添加位置标志的增量源和增量目的数据分别作为各自key/value结构的value,增量源或增量目各自的唯一标识符序列化后的数据作为各自key/value结构的key。
优选的,根据每一个key/values结构的类型判断需进行的同步操作,包括:判断key/values结构中value的数量是否为两个;若为两个value,判断两个value的需同步的值是否相同,若相同,无需进行同步操作,若不同,需进行数据更新操作;若为一个value,判断value的位置标志,若位置标志为增量源,需进行数据插入操作,若位置标志为增量目的,需进行数据删除操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉达梦数据库股份有限公司,未经武汉达梦数据库股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010645879.0/2.html,转载请声明来源钻瓜专利网。