[发明专利]一种基于分布式离线数据库的数据增量处理方法及系统有效
申请号: | 201710549726.4 | 申请日: | 2017-07-07 |
公开(公告)号: | CN107402981B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 江樱;黄海潮;刘鸿宁;卢文达;陈振;杨春晨;褚大可;王仲锋;何欣;刘秀 | 申请(专利权)人: | 国网浙江省电力公司信息通信分公司;国网浙江省电力公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/23 |
代理公司: | 杭州华鼎知识产权代理事务所(普通合伙) 33217 | 代理人: | 项军 |
地址: | 310007*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 离线 数据库 数据 增量 处理 方法 系统 | ||
本发明旨在提供种基于分布式离线数据库的数据增量处理方法及系统,以解决现有技术方案中因主键值变更,大数据平台在进行数据增量合并后数据出现重复的问题。包括如下步骤:获取增量数据的关键信息并写入增量变化表;获取增量数据记录表中操作状态为变更的增量数据记录作为待处理数据记录;获取待处理数据记录中更新前主键和更新后主键不相等的记录作为待拆分数据记录;将待拆分数据记录拆分为操作状态为删除的数据记录和拆分为操作状态为添加的数据记录;根据增量变化表进行数据增量合并。有益技术效果:防止数据因为主键变更而出现重复。
技术领域
本发明涉及一种数据增量处理,具体为一种基于分布式离线数据库的数据增量处理方法及装置。
背景技术
大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算、互联网和可扩展的存储系统。其中基于分布式文件系统,采用分布式并行计算框架,适合海量离线数据批量加工处理的技术平台,在业界大数据实践中得到广泛的应用,可实现了海量数据存储、数据处理、数据挖掘。数据接入是将业务源系统(简称源系统)中业务数据采用一定技术方式同步至大数据平台。按照数据接入策略,数据接入可分为全量、增量接入。由于源业务系统数据量很大时,全量数据接入严重影响系统性能,一般采用数据增量接入大数据平台,再和之前全量数据进行合并的方式加以替代。由于大数据平台相比传统关系数据库存在数据只能新增、不能覆盖、删除等操作,所以接入到大数据平台中的当天增量数据,需要与之前全量数据进行数据对比、去重,并最终形成当天完整全量数据。由于增量数据的来源较多,当一方数据存在问题时,经常会影响数据合并的结果,造成数据重复、丢失等情况。
现有技术中解决增量数据接入重复的方法是:通过增量数据复制组件,获取源头增量变化数据,并对每条变化的记录上打上操作标志位、变更时间,写入大数据平台增量变化表中;大数据平台调用增量合并程序,按照数据变更时间对增量变化表中数据进行排序,按照主键去重形成当天最终增量数据,之后和昨天全量数据进行对比找出未变化的数据,最后将未变化的数据与去重后最终增量数据进行合并,从而形成一份无重复记录的当天全量的数据。其不足在于:当业务源头对部分记录进行主键值变更,将原记录直接变更为新记录时,通过增量数据复制组件复制过来的数据仅记录了数据变更等信息,后续增量合并时无法判断出主键值变更的数据,无法通过原来程序逻辑消除掉到重复记录,增量合并数据存在重复情况,后续只能通过全量刷新数据暂时解决该问题。
发明内容
本发明旨在提供种基于分布式离线数据库的数据增量处理方法及系统,以解决现有技术方案中因主键值变更,大数据平台在进行数据增量合并后数据出现重复的问题。
为了实现所述目的,本发明一种基于分布式离线数据库的数据增量处理方法,包括如下步骤:
获取增量数据的关键信息并写入增量变化表,所述关键信息包括操作时间、操作状态、更新前数据和更新后数据,其中所述更新前数据包括更新前主键,所述更新后数据包括更新后主键;
获取增量数据记录表中操作状态为变更的增量数据记录作为待处理数据记录;
获取待处理数据记录中更新前主键和更新后主键不相等的记录作为待拆分数据记录;
将待拆分数据记录拆分为操作状态为删除的数据记录和拆分为操作状态为添加的数据记录,其中操作状态为删除的数据记录的更新后数据采用对应待拆分数据的更新前数据,操作状态为添加的数据记录的更新后数据采用对应待拆分数据的更新后数据,同时拆分为操作状态为添加的数据记录的操作时间在对应拆分为操作状态为删除的数据记录的操作时间之后;
根据增量变化表进行数据增量合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力公司信息通信分公司;国网浙江省电力公司,未经国网浙江省电力公司信息通信分公司;国网浙江省电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710549726.4/2.html,转载请声明来源钻瓜专利网。