[发明专利]数据同步方法、装置、计算机设备和存储介质在审
申请号: | 201810950303.8 | 申请日: | 2018-08-20 |
公开(公告)号: | CN109241184A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 席旭亮 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市福田区益田路503*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据同步 数据源 计算机设备 存储介质 数据来源 大数据 数据处理领域 数据采用 映射关系 分类 减小 预设 申请 | ||
本申请涉及到大数据处理领域,揭示了一种数据同步方法、装置、计算机设备和存储介质,其中方法包括:获取接收到的数据的数据源;根据预设的数据源与HIVE库的映射关系,将所述数据存放在多个HIVE库中与所述数据源对应的目标HIVE库里;将所述目标HIVE库中的数据同步至大数据平台。本申请将所有的数据根据数据来源而进行分类,然后依次将分类后的数据同步到大数据平台,加快了数据同步的效率以及准确性。而且在对所有数据来源的数据采用同样的方式进行规范整理,更有利于减小数据同步时间。
技术领域
本申请涉及到大数据处理领域,特别是涉及到一种数据同步方法、装置、计算机设备和存储介质。
背景技术
随着信息技术的飞速发展,网络的普及化程度越来越高,对应的各用户产生的数据也呈指数增长。目前服务器对用户的数据进行同步时,是首先将所有的数据存储在大数据平台上的数据库中,再根据数据的类型将数据库中对应的数据同步到大数据平台。
大数据平台上的同步功能在同步数据时,会有下游任务对同步任务造成一定的影响,减慢同步数据的时间。
所以提供一种新的数据同步方法是亟需解决的问题。
发明内容
本申请的主要目的为提供一种将数据进行整理后再进行同步的数据同步方法、装置、计算机设备和存储介质。
为了实现上述发明目的,本申请提出一种数据同步方法,包括:
获取接收到的数据的数据源;
根据预设的数据源与HIVE库的映射关系,将所述数据存放在多个HIVE库中与所述数据源对应的目标HIVE库里;
分别将所述目标HIVE库中的数据同步至大数据平台。
进一步地,所述根据预设的数据源与HIVE库的映射关系,将所述数据存放在多个HIVE库中与所述数据源对应的目标HIVE库里的步骤之后包括:
将所述多个HIVE数据库中的数据按照同样的Sqoop脚本进行规范整理。
进一步地,所述将所述目标HIVE库中的数据同步至大数据平台的步骤包括:
获取到大数据平台的需求信息;
根据所述需求信息,调度所述目标HIVE库的指定数据到大数据平台,以完成对所述指定数据的同步。
进一步地,所述根据需求信息,调度所述目标HIVE库中的指定数据到大数据平台,以完成对所述指定数据同步的步骤之前,包括:
根据大数据平台的需求信息,在所述目标HIVE库中构建HIVE库大数据平台可识别的数据表;
根据所述数据表的抽数模式构建对应的脚本和建表语句;
根据所述脚本和建表语句自动生成调度所述目标HIVE库的指定数据到大数据平台的调度任务。
进一步地,所述根据所述数据表的抽数模式构建对应的脚本和建表语句的步骤,包括:
判断所述抽数模式是否为增量抽取;
若是,则分别抽取所述数据表的表结构中携带的表名对应的初始化表和增量表;
将所述初始化表和增量表合并为所述数据表;
将所述数据表形成所述增量抽取对应增量数据的第二脚本和第二建表语句。
进一步地,所述获取接收到的数据的数据源步骤中的所述数据源包括终端设备信息和应用程序信息。
进一步地,所述根据预设的数据源与HIVE库的映射关系,将所述数据存放在与所述数据源对应的HIVE库里的步骤之前,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810950303.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据库操作方法和装置
- 下一篇:一种数据同步的方法以及数据同步装置