[发明专利]一种处理连接查询的方法及装置有效

专利信息
申请号: 201610797295.9 申请日: 2016-08-31
公开(公告)号: CN107784030B 公开(公告)日: 2020-04-28
发明(设计)人: 王振华 申请(专利权)人: 华为技术有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/245
代理公司: 北京中博世达专利商标代理有限公司 11274 代理人: 申健
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 处理 连接 查询 方法 装置
【说明书】:

发明实施例公开了一种处理连接查询的方法及装置,涉及通信技术领域,能够解决连接查询的效率低的问题。本发明实施例的方法包括:确定频繁表组合,频繁表组合为在历史查询记录中的出现频率大于预设值的表组合,表组合包括连接键以及通过连接键进行连接的表,然后根据频繁表组合中的连接键信息创建簇索引,再根据簇索引中的索引列进行洗牌操作,将索引列值相同的记录存放在至少一个数据块中,以形成频繁表组合对应的表簇。本发明适用于对表格进行连接查询。

技术领域

本发明涉及通信技术领域,尤其涉及一种处理连接查询的方法及装置。

背景技术

网络技术的飞速发展使得数据量急剧增长,为了对大规模的数据进行高效的处理,可以采用基于MapReduce(映射归约)的分布式计算框架进行大数据的查询分析任务,然而由于在基于MapReduce的分布式计算框架中执行查询分析任务时,需要针对每个任务编写复杂的程序,对于OLAP(On-Line Analytical Processing,联机分析处理)这种复杂的查询,实现过程更为复杂,易用性较低。相比之下,SQL(Structured Query Language,结构化查询语言)的易用性较高,所以通常将SQL应用于基于MapReduce的分布式计算框架中以进行大数据的查询分析。

SQL查询中的Join(连接)查询可以将数据库中的两张表通过连接属性连接起来,所以可以采用分布式Hash Join(散列连接)技术在分布式环境下确定两个表之间对某一列的等值连接,如图1所示,首先需确定待处理表格的数据的存储节点,在确定的节点上启动map任务,对每个数据块执行一次本地hash(哈希)过程,分别将每个block(数据块)中的数据根据key值的哈希值进行分桶,例如,图1中的每个数据块中的数据分别被划分至三个分桶,同一分桶中的数据的key值的hash值相同,之后进行shuffle(洗牌)过程,将相同分桶的记录传输至同一reduce节点上,最终在reduce阶段对两张表中的key值相同的记录执行连接操作。

然而,在实现上述方法的过程中,当数据块中数据的key值较为分散时,在map阶段对数据进行分桶的过程需要进行大量的计算,所需的时间较长,且由于每个数据块中都存在多个分桶的数据,在shuffle过程中会产生大量的网络连接开销和数据传输开销,结合图1,每个数据块中的数据都分别需要传输至三个不同reduce节点,传输过程需要消耗一定的时间,最终导致连接查询的效率较低。

发明内容

本发明实施例提供一种处理连接查询的方法及装置,能够提高连接查询的效率。

第一方面,本发明实施例提供一种处理连接查询的方法,包括:主节点确定频繁表组合,频繁表组合为在历史查询记录中的出现频率大于预设值的表组合,表组合包括连接键以及通过连接键进行连接的表,然后根据频繁表组合中的连接键信息创建簇索引,簇索引中索引列的数量与频繁表组合中连接键的数量相同,簇索引用于指示频繁表组合中索引列值相同的记录的存储位置,之后主节点控制工作节点根据簇索引中的索引列进行洗牌操作,将索引列值相同的记录集中存放在至少一个数据块中,以形成频繁表组合对应的表簇,其中索引列值相同的记录为通过连接键进行连接的表中的记录。可见将连接键相同的记录尽可能的存放在一个数据块中,使得数据块中数据的连接键值较为集中,大大减少了执行连接查询时,在map阶段对数据分桶时的计算量,且由于一个数据块中存储的基本都是连接键相同的数据,此时,一个数据块中就不会出现太多分桶的数据,可以减少reduce阶段将数据传输至reduce节点所需的时间,提高了连接查询的效率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610797295.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top