[发明专利]Hive数据仓库同步方法、系统、设备及存储介质有效
申请号: | 202010084651.9 | 申请日: | 2020-02-10 |
公开(公告)号: | CN111241203B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 韩文欣;董延峰 | 申请(专利权)人: | 江苏满运软件科技有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/22;G06F16/178 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 钟宗 |
地址: | 210012 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | hive 数据仓库 同步 方法 系统 设备 存储 介质 | ||
本发明提供了一种Hive数据仓库同步方法、系统、设备及存储介质,所述方法包括步骤:获取源Hive数据仓库的存储路径信息,判断源文件系统中是否存在与存储路径信息对应的文件存储目录;若存在则生成元数据扫描任务;接收元数据扫描任务,基于元数据扫描任务判断目标Hive数据仓库中是否存在与源Hive数据仓库中元数据记录的表ID匹配的第二元数据;若存在则判断源Hive数据仓库的元数据和所述第二元数据是否相同;若不同则生成同步任务数据;基于数据文件同步任务数据执行数据文件同步任务;基于元数据同步任务数据执行元数据同步任务;本申请保证了数据同步之后元数据和数据文件的完整性;实现了Hive数据仓库稳定可靠地进行同步。
技术领域
本发明涉及计算机技术领域,具体地说,涉及一种Hive数据仓库同步方法、系统、设备及存储介质。
背景技术
Hive是基于Hadoop(由Apache基金会所开发的分布式系统基础架构)开发的一个数据仓库工具,用来进行数据提取、转化或者加载。Hive是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL(结构化查询语言)查询功能,能将SQL语句转换为Map-Reduce(一种分布式计算系统)任务来执行。Map-Reduce系统中包含有Map(映射)单元和Reduce(归约)单元,Map单元用于进行数据映射,实现分拣和分堆,Reduce单元进行数据合并。
由于Hive是基于Hadoop来构建的,所以Hive需要和Hadoop相配合实现对数据库和数据表的包含存储在内的各种操作。Hive中通常用来存储元数据,即数据表的配置、属性信息;Hadoop中通常用来存储数据文件。元数据和数据文件是对应的。
Hive数据仓库中的数据量通常非常大,比如达到PB(Peta Byte,一种计算机储存单位)级。当需要对Hive数据仓库中的大数据量进行迁移时,如何快速高效且稳定可靠的实现数据迁移,是目前面临的一个问题。
现有技术中,基于Hadoop组件的distcp(分布式拷贝)命令可以实现底层Hadoop文件的数据迁移,但是不能与Hive库表进行对应,达到数据仓库的整体迁移的目的。另外distcp也存在部分版本不兼容问题。基于Hive元数据的MySQL(一种关系型数据库管理系统)库表整体迁移可以实现元数据的迁移,却不能实现数据文件的迁移。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种Hive数据仓库同步方法、系统、设备及存储介质,实现了对Hive数据仓库中的元数据和Hadoop系统中的数据文件进行稳定可靠地数据迁移。
为实现上述目的,本发明提供了一种Hive数据仓库同步方法,用于将源Hive数据仓库中的元数据同步至目标Hive数据仓库,且将源文件系统中的数据文件同步至目标文件系统,所述方法包括以下步骤:
S10,获取所述源Hive数据仓库的存储路径信息,判断所述源文件系统中是否存在与所述存储路径信息对应的文件存储目录;
S20,若所述源文件系统存在所述文件存储目录,则生成元数据扫描任务;
S30,接收所述元数据扫描任务,基于所述元数据扫描任务判断所述目标Hive数据仓库中是否存在与所述源Hive数据仓库中元数据记录的表ID匹配的第二元数据;
S40,若所述目标Hive数据仓库中存在所述第二元数据,判断所述源Hive数据仓库的元数据和所述目标Hive数据仓库中的第二元数据是否相同;若不同或者所述目标Hive数据仓库中不存在所述第二元数据,则生成同步任务数据,并将所述同步任务数据序列化为同步任务序列;所述同步任务数据包含有数据文件同步任务数据和元数据同步任务数据;
S50,接收所述同步任务序列,对所述同步任务序列进行反序列化,得到所述同步任务数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏满运软件科技有限公司,未经江苏满运软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010084651.9/2.html,转载请声明来源钻瓜专利网。