[发明专利]数据处理方法以及装置有效
申请号: | 202110136105.X | 申请日: | 2021-02-01 |
公开(公告)号: | CN113297188B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 尤田;孟庆义;沈春辉;古青松 | 申请(专利权)人: | 淘宝(中国)软件有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 吴肖肖 |
地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 以及 装置 | ||
本说明书实施例提供数据处理方法以及装置,其中所述数据处理方法包括:解析数据源中待传输的项目数据的数据分布信息,调用映射规约算法,并基于所述数据分布信息对所述项目数据进行切分,生成多个数据分片,调用数据库导入组件将所述多个数据分片中的项目数据传输至目标数据库表下预设数量的数据分区。
技术领域
本说明书实施例涉及数据库技术领域,特别涉及一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网的快速发展,互联网中数据的种类和规模也都在快速增长。目前,由于传统的关系型数据库在应对大数据的存储、查询和分析等需求时,出现了性能和规模上的瓶颈,因此各种非关系型数据库应运而生,成为数据存储和分析领域的重要处理手段。非关系型数据库的数据存储不需要固定的表结构,通常也不存在连接操作,具有很强的可扩展性。非关系型数据库以不同的存储结构为分类依据,可分为键-值对数据库、列族数据库、文档型数据库和图数据库等。
在实际应用中,非关系型数据库往往是作为项目处理平台提供项目处理等服务,为保证项目处理过程的实时性以及项目处理的效率,非关系型数据库中往往无法存储海量的交易数据,如果通过非关系型数据库对外提供数据查询服务,则通常需借助数据仓库,常用的架构是在数据仓库做复杂计算,然后定期将计算结果批量回流到非关系型数据库中做全量数据存储和实时读写,但目前这种处理方式往往在由数据仓库向非关系型数据库进行数据传输的过程中,容易出现数据倾斜的问题,导致无法保证数据仓库和非关系型数据库间数据链路的稳定性和可用性,因此,继续一种有效的方法以解决此类问题。
发明内容
有鉴于此,本说明书实施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种数据处理方法,包括:
解析数据源中待传输的项目数据的数据分布信息;
调用映射规约算法,并基于所述数据分布信息对所述项目数据进行切分,生成多个数据分片;
调用数据库导入组件将所述多个数据分片中的项目数据传输至目标数据库表下预设数量的数据分区。
可选地,所述生成多个数据分片之后,还包括:
对所述多个数据分片分别包含的项目数据进行排序,生成包含排序结果的多个目标数据分片;
相应的,所述调用数据库导入组件将所述多个数据分片中的项目数据传输至目标数据库表下预设数量的数据分区,包括:
调用数据库导入组件将所述多个目标数据分片中的项目数据传输至目标数据库表下预设数量的数据分区。
可选地,所述调用数据库导入组件将所述多个目标数据分片中的项目数据传输至目标数据库表下预设数量的数据分区,包括:
将所述多个目标数据分片中包含的项目数据按照所述排序结果进行整合,生成数据源表,并建立所述多个目标数据分片与所述数据源表间的第一映射关系;
根据所述第一映射关系在所述数据源表中读取任一目标数据分片包含的项目数据,并调用数据库导入组件将所述任一目标数据分片包含的项目数据传输至所述目标数据库表下至少一个数据分区。
可选地,所述调用数据库导入组件将所述多个目标数据分片中的项目数据传输至目标数据库表下预设数量的数据分区,包括:
确定数据分片的数量;
在所述数据库导入组件中构建对应数量的数据写模块,并调用所述对应数量的数据写模块分别将所述多个目标数据分片中的项目数据传输至目标数据库表下预设数量的数据分区。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淘宝(中国)软件有限公司,未经淘宝(中国)软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110136105.X/2.html,转载请声明来源钻瓜专利网。