[发明专利]基于云存储的数据传输方法、装置及计算机设备在审
申请号: | 201910969811.5 | 申请日: | 2019-10-12 |
公开(公告)号: | CN111090645A | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 邓煜 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F16/27;G06F16/28 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 存储 数据传输 方法 装置 计算机 设备 | ||
本发明公开了基于云存储的数据传输方法、装置、计算机设备及存储介质。该方法包括接收由Hive数据库上传的全量数据,并进行存储;获取HBase数据库中的预分区个数;根据所述预分区个数及全量数据中各数据的行键,对所述全量数据进行分区,得到对应的分区数据;将每个分区数据依次根据列和行键进行升序排序,得到对应的排序后分区数据;将各排序后分区数据发送至所述Hbase数据库对应的分区服务器中以进行存储。该方法实现了全量数据写入Hbase数据库之前,将排序过程在云端完成,提高了数据写入Hbase数据库的效率。
技术领域
本发明涉及云存储技术领域,尤其涉及一种基于云存储的数据传输方法、装置、计算机设备及存储介质。
背景技术
目前,将Hive数据库(Hive是一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表)中的数据写入HBase(HBase是一个分布式的、面向列的开源数据库)中时,一般采用离线批量写入或者流式写入的方式,但是上述两种方式在将数据写入HBase时均是采用put的方式(put是HBase中数据插入方式中的一种),通过put指令插入数据时是一边排序一边插入,造成对HBase集群的数据处理效率的影响,而且导致数据写入效率低下。
发明内容
本发明实施例提供了一种基于云存储的数据传输方法、装置、计算机设备及存储介质,旨在解决现有技术中将数据写入HBase时均是采用put的方式,通过put指令插入数据时是一边排序一边插入,造成对HBase集群的数据处理效率的影响,而且导致数据写入效率低下的问题。
第一方面,本发明实施例提供了一种基于云存储的数据传输方法,其包括:
接收由Hive数据库上传的全量数据,并进行存储;其中,所述Hive数据库为数据仓库式数据库;
获取HBase数据库中的预分区个数;其中,所述HBase数据库为分布式开源数据库,且所述HBase数据库中每一预分区均对应一个分区服务器;
根据所述预分区个数及全量数据中各数据的行键,对所述全量数据进行分区,得到对应的分区数据;其中,分区数据的总分区数与所述预分区个数相等,且每一分区数据唯一对应一个分区服务器;
将每个分区数据依次根据列和行键进行升序排序,得到对应的排序后分区数据;以及
将各排序后分区数据发送至所述Hbase数据库对应的分区服务器中以进行存储。
第二方面,本发明实施例提供了一种基于云存储的数据传输装置,其包括:
接收单元,用于接收由Hive数据库上传的全量数据,并进行存储;其中,所述Hive数据库为数据仓库式数据库;
分区个数获取单元,用于获取HBase数据库中的预分区个数;其中,所述HBase数据库为分布式开源数据库,且所述HBase数据库中每一预分区均对应一个分区服务器;
分区单元,用于根据所述预分区个数及全量数据中各数据的行键,对所述全量数据进行分区,得到对应的分区数据;其中,分区数据的总分区数与所述预分区个数相等,且每一分区数据唯一对应一个分区服务器;
排序单元,用于将每个分区数据依次根据列和行键进行升序排序,得到对应的排序后分区数据;以及
传输单元,用于将各排序后分区数据发送至所述Hbase数据库对应的分区服务器中以进行存储。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于云存储的数据传输方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910969811.5/2.html,转载请声明来源钻瓜专利网。