[发明专利]数据处理方法以及装置有效
申请号: | 202110136105.X | 申请日: | 2021-02-01 |
公开(公告)号: | CN113297188B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 尤田;孟庆义;沈春辉;古青松 | 申请(专利权)人: | 淘宝(中国)软件有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 吴肖肖 |
地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 以及 装置 | ||
1.一种数据处理方法,包括:
解析数据源中待传输的项目数据的数据分布信息;
调用映射规约算法,并基于所述数据分布信息对所述项目数据进行切分,生成多个数据分片;
调用数据库导入组件将所述多个数据分片中的项目数据传输至目标数据库表下预设数量的数据分区;
确定与所述多个数据分片中每个数据分片存在映射关系的数据分区的数量;
根据所述数据分区的数量对与所述多个数据分片中任意数据分片存在映射关系的数据分区进行优化,使得与每个数据分片存在映射关系的数据分区的数量相同;
其中,所述确定与所述多个数据分片中每个数据分片存在映射关系的数据分区的数量,包括:
根据传输结果建立所述多个数据分片与数据分区间的第二映射关系;
根据所述第二映射关系确定与所述多个数据分片中每个数据分片存在映射关系的数据分区的数量。
2.根据权利要求1所述的数据处理方法,所述生成多个数据分片之后,还包括:
对所述多个数据分片分别包含的项目数据进行排序,生成包含排序结果的多个目标数据分片;
相应的,所述调用数据库导入组件将所述多个数据分片中的项目数据传输至目标数据库表下预设数量的数据分区,包括:
调用数据库导入组件将所述多个目标数据分片中的项目数据传输至目标数据库表下预设数量的数据分区。
3.根据权利要求2所述的数据处理方法,所述调用数据库导入组件将所述多个目标数据分片中的项目数据传输至目标数据库表下预设数量的数据分区,包括:
将所述多个目标数据分片中包含的项目数据按照所述排序结果进行整合,生成数据源表,并建立所述多个目标数据分片与所述数据源表间的第一映射关系;
根据所述第一映射关系在所述数据源表中读取任一目标数据分片包含的项目数据,并调用数据库导入组件将所述任一目标数据分片包含的项目数据传输至所述目标数据库表下至少一个数据分区。
4.根据权利要求2所述的数据处理方法,所述调用数据库导入组件将所述多个目标数据分片中的项目数据传输至目标数据库表下预设数量的数据分区,包括:
确定数据分片的数量;
在所述数据库导入组件中构建对应数量的数据写模块,并调用所述对应数量的数据写模块分别将所述多个目标数据分片中的项目数据传输至目标数据库表下预设数量的数据分区。
5.根据权利要求2至4任意一项所述的数据处理方法,所述对所述多个数据分片分别包含的项目数据进行排序,生成包含排序结果的多个目标数据分片,包括:
根据所述数据分布信息确定待传输的项目数据的数据总量;
根据所述数据总量和数据分片的数量确定每个数据分片包含项目数据的数量;
根据所述每个数据分片包含项目数据的数量对所述多个数据分片分别包含的项目数据进行排序,生成包含排序结果的多个目标数据分片,其中,所述多个目标数据分片间的排序结果连续。
6.根据权利要求1所述的数据处理方法,所述解析数据源中待传输的项目数据的数据分布信息,包括:
确定数据源中待传输的项目数据对应的分位数图,并根据所述分位数图确定所述项目数据的数据分布信息;
相应的,所述调用映射规约算法,并基于所述数据分布信息对所述项目数据进行切分,生成多个数据分片,包括:
执行映射任务,基于所述数据分布信息将所述项目数据映射至不同的数据分片。
7.根据权利要求6所述的数据处理方法,所述生成多个数据分片之后,还包括:
执行规约任务,对所述多个数据分片分别包含的项目数据进行排序,生成包含排序结果的多个目标数据分片;
基于摘要合并理论将所述目标数据分片包含的项目数据按照所述排序结果进行合并,生成数据源表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淘宝(中国)软件有限公司,未经淘宝(中国)软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110136105.X/1.html,转载请声明来源钻瓜专利网。