[发明专利]一种hive离线同步校验方法、装置及电子设备有效
申请号: | 201910930903.2 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110781197B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 黄建庭;宋荣鑫;刘建敏;黄龙 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/27 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 乔东峰 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hive 离线 同步 校验 方法 装置 电子设备 | ||
本发明公开了一种hive离线同步校验方法、装置及电子设备,所述方法包括:分别获取hive表的增量流水数据表和增量数据表;根据所述增量流水数据表和增量数据表对hive同步业务库数据进行校验。本发明的hive离线同步校验方法,根据增量流水数据表和增量数据表对hive同步业务库数据进行校验,从校验机制上保证hive数据仓库的数据质量,能有效防止hive离线同步过程中数据的丢失,达到金融业对数据一致性的要求。
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种hive离线同步校验方法、装置、电子设备及计算机可读介质。
背景技术
随着计算机技术的不断发展和信息化程度的不断提高,互联网快速发展,网络信息呈指数级增长,海量数据存储及应用也随之蓬勃发展。
在大数据处理领域中,hive作为建立在Hadoop上的开源数据仓库框架有着较为广泛的使用,其可以将结构化的数据文件映射为一张数据库表,并提供类SQL语言HQL的查询,可以方便的读取、写入和管理Hadoop中的海量数据集,越来越多的数据存储电子设备以hive作为数据管理仓库和数据处理分析工具。Hive采用的HQL与数据库sql最大的区别就是数据库sql支持数据更新,HQL却不支持,也就是HQL无法对数据进行update(更新)、delete(删除),只能通过insert(插入)变相实现update、delete。这个变相的实现过程容易导致数据丢失,也因此会导致现有的hive离线同步工具在同步过程中在数据丢失的问题。
发明内容
本发明旨在解决现有技术中hive离线同步过程中存在数据丢失的技术问题。
为了解决上述技术问题,本发明第一方面提出一种hive离线同步校验方法,所述方法包括:
分别获取hive表的增量流水数据表和增量数据表;
根据所述增量流水数据表和增量数据表对hive同步业务库数据进行校验。
在一种较佳的实施方式中,所述获取hive表的增量流水数据表包括:
通过canal同步业务库binlog到kafka;
通过流计算将binlog实时写到hive表中生成增量数据变更log;
根据所述增量数据变更log生成增量流水数据表。
在一种较佳的实施方式中,所述获取增量数据表包括:
通过DataX/Sqoop离线同步获取增量数据表。
在一种较佳的实施方式中,所述根据所述增量流水数据表和增量数据表对hive同步业务库数据进行校验包括:
对比所述增量流水数据表和增量数据表是否有差异;
若所述增量流水数据表和增量数据表有差异,确定所述增量数据表是否有数据缺失;
若所述增量数据表中有数据缺失,根据所述增量流水表补充所述增量数据表中的缺失数据。
在一种较佳的实施方式中,所述方法还包括:
根据补充后的增量数据表更新hive同步业务库数据。
在一种较佳的实施方式中,若所述增量流水数据表和增量数据表有差异,提示报警信息。
为解决上述技术问题,本发明第二方面提供一种hive离线同步校验装置,所述装置包括:
第一获取模块,用于获取hive表的增量流水数据表;
第二获取模块,用于获取hive表的增量数据表;
校验模块,用于根据所述增量流水数据表和增量数据表对hive同步业务库数据进行校验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910930903.2/2.html,转载请声明来源钻瓜专利网。