[发明专利]一种处理连接查询的方法及装置有效
申请号: | 201610797295.9 | 申请日: | 2016-08-31 |
公开(公告)号: | CN107784030B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 王振华 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/245 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 连接 查询 方法 装置 | ||
本发明实施例公开了一种处理连接查询的方法及装置,涉及通信技术领域,能够解决连接查询的效率低的问题。本发明实施例的方法包括:确定频繁表组合,频繁表组合为在历史查询记录中的出现频率大于预设值的表组合,表组合包括连接键以及通过连接键进行连接的表,然后根据频繁表组合中的连接键信息创建簇索引,再根据簇索引中的索引列进行洗牌操作,将索引列值相同的记录存放在至少一个数据块中,以形成频繁表组合对应的表簇。本发明适用于对表格进行连接查询。
技术领域
本发明涉及通信技术领域,尤其涉及一种处理连接查询的方法及装置。
背景技术
网络技术的飞速发展使得数据量急剧增长,为了对大规模的数据进行高效的处理,可以采用基于MapReduce(映射归约)的分布式计算框架进行大数据的查询分析任务,然而由于在基于MapReduce的分布式计算框架中执行查询分析任务时,需要针对每个任务编写复杂的程序,对于OLAP(On-Line Analytical Processing,联机分析处理)这种复杂的查询,实现过程更为复杂,易用性较低。相比之下,SQL(Structured Query Language,结构化查询语言)的易用性较高,所以通常将SQL应用于基于MapReduce的分布式计算框架中以进行大数据的查询分析。
SQL查询中的Join(连接)查询可以将数据库中的两张表通过连接属性连接起来,所以可以采用分布式Hash Join(散列连接)技术在分布式环境下确定两个表之间对某一列的等值连接,如图1所示,首先需确定待处理表格的数据的存储节点,在确定的节点上启动map任务,对每个数据块执行一次本地hash(哈希)过程,分别将每个block(数据块)中的数据根据key值的哈希值进行分桶,例如,图1中的每个数据块中的数据分别被划分至三个分桶,同一分桶中的数据的key值的hash值相同,之后进行shuffle(洗牌)过程,将相同分桶的记录传输至同一reduce节点上,最终在reduce阶段对两张表中的key值相同的记录执行连接操作。
然而,在实现上述方法的过程中,当数据块中数据的key值较为分散时,在map阶段对数据进行分桶的过程需要进行大量的计算,所需的时间较长,且由于每个数据块中都存在多个分桶的数据,在shuffle过程中会产生大量的网络连接开销和数据传输开销,结合图1,每个数据块中的数据都分别需要传输至三个不同reduce节点,传输过程需要消耗一定的时间,最终导致连接查询的效率较低。
发明内容
本发明实施例提供一种处理连接查询的方法及装置,能够提高连接查询的效率。
第一方面,本发明实施例提供一种处理连接查询的方法,包括:主节点确定频繁表组合,频繁表组合为在历史查询记录中的出现频率大于预设值的表组合,表组合包括连接键以及通过连接键进行连接的表,然后根据频繁表组合中的连接键信息创建簇索引,簇索引中索引列的数量与频繁表组合中连接键的数量相同,簇索引用于指示频繁表组合中索引列值相同的记录的存储位置,之后主节点控制工作节点根据簇索引中的索引列进行洗牌操作,将索引列值相同的记录集中存放在至少一个数据块中,以形成频繁表组合对应的表簇,其中索引列值相同的记录为通过连接键进行连接的表中的记录。可见将连接键相同的记录尽可能的存放在一个数据块中,使得数据块中数据的连接键值较为集中,大大减少了执行连接查询时,在map阶段对数据分桶时的计算量,且由于一个数据块中存储的基本都是连接键相同的数据,此时,一个数据块中就不会出现太多分桶的数据,可以减少reduce阶段将数据传输至reduce节点所需的时间,提高了连接查询的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610797295.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高弹性导电纤维及其制备方法
- 下一篇:一种复合弹性纤维及其制备方法