[发明专利]一种数据表关联方法和装置在审
申请号: | 201610480216.1 | 申请日: | 2016-06-27 |
公开(公告)号: | CN106874322A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 康树鹏 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京博思佳知识产权代理有限公司11415 | 代理人: | 靳玫,林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据表 关联 方法 装置 | ||
技术领域
本发明涉及数据处理技术,特别涉及一种数据表关联方法和装置。
背景技术
在数据仓库进行数据清洗时,其中一种常用的清洗方式是数据表和数据表之间的关联,这种数据仓库中的数据表之间的关联可以称为join操作。参与join的数据表中通常具有相同的关联键(数据表之间关联时使用的连接字段),如果将关联键称为key,例如,其中一个数据表中存储该key与信息A的对应关系,另一个数据表中存储该Key与信息B的对应关系,在两者join时,可以根据关联键key,将对应相同key的信息A和信息B组合在一张新数据表中,该新数据表可以包含该key与对应的信息A、信息B。
在join的过程中经常出现的一种情况是数据倾斜,数据倾斜即:参与join的数据表中,其中一个数据表包含大量的相同key值的数据记录,例如,某个用户登陆信息数据表中,记载有用户ID“123”这个用户分别在不同时间进行登陆的百万或千万条数据记录(例如,其中一条记录是“用户ID 123——登陆时间2016.3.21”)。那么在数据仓库使用的分布式计算平台上处理该数据表与其他数据表的join操作时,通常计算时间会较长。
发明内容
有鉴于此,本发明提供一种数据表关联方法和装置,以在存在数据倾斜的数据表之间关联时,提高数据表关联的效率。
具体地,本发明是通过如下技术方案实现的:
第一方面,提供一种数据表关联方法,该方法应用于对第一数据表和第二数据表进行关联;其中,所述第一数据表中包括:能够造成数据倾斜的倾斜数据以及所述倾斜数据之外的非倾斜数据,所述方法包括:
由所述第一数据表中提取所述倾斜数据放入第一数据分表,并将所述非倾斜数据放入第二数据分表;
由所述第二数据表中提取匹配关联所述第一数据分表的数据,放入第三数据分表;
将所述第一数据分表和第三数据分表进行mapjoin得到第一关联表,将所述第二数据分表和所述第二数据表进行关联,得到第二关联表;
将所述第一关联表和第二关联表进行组合,得到关联结果表,所述关联结果表为所述第一数据表和第二数据表关联的结果。
第二方面,提供一种数据表关联装置,所述装置应用于对第一数据表和第二数据表进行关联;其中,所述第一数据表中包括:能够造成数据倾斜的倾斜数据以及所述倾斜数据之外的非倾斜数据,所述装置包括:
表拆分单元,用于由所述第一数据表中提取所述倾斜数据放入第一数据分表,并将所述非倾斜数据放入第二数据分表;
表提取单元,用于由所述第二数据表中提取匹配关联所述第一数据分表的数据,放入第三数据分表;
表关联单元,用于将所述第一数据分表和第三数据分表进行mapjoin得到第一关联表,将所述第二数据分表和所述第二数据表进行关联,得到第二关联表;
表组合单元,用于将所述第一关联表和第二关联表进行组合,得到关联结果表,所述关联结果表为所述第一数据表和第二数据表关联的结果。
本发明实施例的数据表关联方法和装置,通过将包含倾斜数据的数据表进行拆分,将拆分后的倾斜数据与一小表进行mapjoin,并将剩余数据与另一表join,使得这两部分的数据表关联都不会受到倾斜数据的影响,提高了数据表关联的效率。
附图说明
图1为本发明实施例提供的数据表关联方法的流程图;
图2为本发明实施例提供的数据表关联方法的原理示意图;
图3为本发明实施例提供的数据表关联装置的结构示意图;
图4为本发明实施例提供的数据表关联装置的结构示意图;
图5为本发明实施例提供的数据表关联装置所在的处理设备的一种硬件结构图。
具体实施方式
数据仓库主要是为决策分析提供数据,所涉及的数据操作主要是数据查询,并且为了保证数据仓库提供数据的准确性,进入仓库的数据通常要经过数据清洗。数据表关联是数据仓库进行数据清洗时的一种常用方法,例如,在通过map/reduce分布式计算平台进行数据处理时,reduce阶段可以根据两个或更多的数据表中的关联键对这些表执行join(也称笛卡尔乘积),比如,数据仓库接收到一个数据查询请求,请求查询获取对应某个key的信息A和信息B,而信息A和信息B分别位于两个数据表中,那么可以根据Key对这两个数据表进行关联,得到一个包含key及对应的信息A和信息B的新数据表,返回给查询者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610480216.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:有源电力滤波器新型电流控制方法
- 下一篇:一种改善谐波影响的电子调压电路