[发明专利]一种hive离线同步校验方法、装置及电子设备有效
申请号: | 201910930903.2 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110781197B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 黄建庭;宋荣鑫;刘建敏;黄龙 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/27 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 乔东峰 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hive 离线 同步 校验 方法 装置 电子设备 | ||
1.一种hive离线同步校验方法,其特征在于,所述方法包括:
分别获取hive表的增量流水数据表和增量数据表;所述增量流水数据表用于记录对hive表的每一个修改并用于反映实际hive表的数据变更,所述增量数据表用于记录hive表的新增数据;
其中,通过DataX或者Sqoop离线同步获取所述增量数据表;以及,通过canal同步业务库binlog到kafka,通过流计算将binlog实时写到hive表中生成增量数据变更log,以及根据所述增量数据变更log生成所述增量流水数据表;
根据所述增量流水数据表和增量数据表对hive同步业务库数据进行校验。
2.根据权利要求1所述的方法,其特征在于,
通过canal同步业务库binlog到kafka,包括:通过canal解析binlog的数据,由同步客户端syncClient订阅,然后实时推送到kafka;
通过流计算将binlog实时写到hive表中生成增量数据变更log,包括:流计算实时获取binlog的海量数据,经过实时分析处理而获得有价值的信息,将有价值的信息实时写到hive表中生成增量数据变更log;
根据所述增量数据变更log生成增量流水数据表,包括:根据所述增量数据变更log及源hive表形成对应于源hive表的增量流水数据表。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述增量流水数据表和增量数据表对hive同步业务库数据进行校验包括:
对比所述增量流水数据表和增量数据表是否有差异;
若所述增量流水数据表和增量数据表有差异,确定所述增量数据表是否有数据缺失;
若所述增量数据表中有数据缺失,根据所述增量流水数据表补充所述增量数据表中的缺失数据。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据补充后的增量数据表更新hive同步业务库数据。
5.根据权利要求3所述的方法,其特征在于,还包括:若所述增量流水数据表和增量数据表有差异,提示报警信息。
6.一种hive离线同步校验装置,其特征在于,所述装置包括:
第一获取模块,用于获取hive表的增量流水数据表,所述增量流水数据表用于记录对hive表的每一个修改并用于反映实际hive表的数据变更,具体包括:同步模块,用于通过canal同步业务库binlog到kafka;第一生成模块,用于通过流计算将binlog实时写到hive表中生成增量数据变更log;第二生成模块,用于根据所述增量数据变更log生成所述增量流水数据表;
第二获取模块,用于通过DataX或者Sqoop离线同步获取hive表的增量数据表,所述增量数据表用于记录hive表的新增数据;
校验模块,用于根据所述增量流水数据表和增量数据表对hive同步业务库数据进行校验。
7.根据权利要求6所述的装置,其特征在于,
所述同步模块具体用于:通过canal解析binlog的数据,由同步客户端syncClient订阅,然后实时推送到kafka;
所述第一生成模块具体用于:流计算实时获取binlog的海量数据,经过实时分析处理而获得有价值的信息,将有价值的信息实时写到hive表中生成增量数据变更log;
第二生成模块具体用于:根据所述增量数据变更log及源hive表形成对应于源hive表的增量流水数据表。
8.根据权利要求6或7所述的装置,其特征在于,所述校验模块包括:
对比模块,用于对比所述增量流水数据表和增量数据表是否有差异;
确定模块,用于若所述增量流水数据表和增量数据表有差异,确定所述增量数据表是否有数据缺失;
补充模块,用于若所述增量数据表中有数据缺失,根据所述增量流水数据表补充所述增量数据表中的缺失数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910930903.2/1.html,转载请声明来源钻瓜专利网。