[发明专利]一种基于分布式数据库的半连接查询计划选择算法在审
申请号: | 201611138749.8 | 申请日: | 2016-12-08 |
公开(公告)号: | CN108182192A | 公开(公告)日: | 2018-06-19 |
发明(设计)人: | 夏斌;李博涵;秦小麟 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询计划 分布式数据库 选择算法 查询 传输 分布式数据库系统 分布式连接 查询效率 连接操作 连接关系 无用数据 选择执行 有效减少 运算方式 表属性 评估 元组 剔除 套用 优化 分析 研究 | ||
本发明的目的是提出一种基于查询地点不同的分布式半连接代价模型,以解决分布式连接的查询计划选择问题。利用该方法能在查询正式操作前,利用现有表大小,以及表属性及元组长度,套用代价模型,确定查询计划。提高分布式数据库系统的查询效率,采用新的代价模型在执行半连接计划之前评估和传输执行与优化代价。剔除与连接无关的数据,有效减少连接操作关系中的无用数据,选择执行代价更小的执行方法。首先对分布式数据库查询执行代价模型进行分析,然后对半连接中的连接运算方式、连接关系的传输方法和执行场地等问题进行研究,并计算其评估方法的执行代价,给出一种可行的查询计划选择算法,最终确定执行的场地、连接的方法和传输方法。
技术领域
本发明涉及一种并行式连接算法中针对连接后数据规模的计算,属于计算机数据库中的代价模型领域。
背景技术
分布式数据库系统可以将物理位置分散而又需要不同粒度数据管理的多个集中式数据库系统组织起来,形成一个具有海量、分布式特征的数据库系统[1]。分布式数据库中操作代价较高的连接操作对系统查询效率直接产生影响。分布式数据库在体系结构上与集中式数据库系统差异显著,提供了一个新的服务平台,由此带来与集中式数据库系统不同的技术问题[2]。查询优化处理是其中关键性问题之一。在集中式数据库中,由于系统大多运行在单个处理器的计算机上,所以查询执行总代价为CPU代价+I/O代价;而在分布式数据库系统中,由于数据的分布和冗余,查询处理需要考虑站点间代价,所以除了考虑CPU代价和I/O代价外,还应该包括数据在网络上的传输代价,即总代价=CPU代价+I/O代价+传输代价[3]。
分布式数据库系统的查询优化追求两个目标:一是使总代价最小;二是使查询响应时间最短,这一点在分布式数据库系统中的意义尤为重要,因为分布式数据库系统是由多台计算机组成的,数据的分布和冗余也增加了查询并行处理的可能性,从而可以缩减查询处理的响应时间,提高查询处理速度。
分布式数据库的查询优化是云数据管理的研究热点之一。传统的分布式连接查询处理算法[4]以基于树的查询执行计划模型为基础,辅以Hash表[5]的使用,以达到查询优化目的。例如分布式空间连接查询使用的KD树,需要在数据集上事先建立索引[6];亦如基于树型结构的MapReduce并行模型,该模型在Reduce阶段建立反向二叉树来实现有效的结果合并和花间,减少整合查询结果所花费的代价[7]。然而上述模型在算法执行过程中产生大量的中间结果,从而导致大量的系统开销,抵消了分布式带来的效率提高。针对传统的分布式连接查询处理算法的不足,提出了基于半连接算法的查询优化处理,以及基于直接连接算法的查询优化处理[8][9]。这两种算法都是以总代价最小为优化准则。具体选择哪种算法,则需根据系统组成环境来确定。若传输代价较大,局部代价可以忽略不计,则采用半连接算法的查询优化处理;相反,若局部代价较大时,采用直接连接算法比采用半连接算法优越。在实际的应用中,系统组成环境可能比较复杂,应该综合考虑局部代价和传输代价。
基于直接连接算法的查询优化处理,针对执行场地的不同,针对连接方式的不同,以及针对传输方法的不同的查询优化研究见文献[10]。其针对直接连接的扫描关系不同,划分成了两种算法,嵌套循环法和合并扫描法;并根据查询地点的不同,划分成了查询站点为内关系所在地的Site(I),查询站点为外关系所在地的Site(O),以及查询站点为其他地点的Site(Other)。而基于半连接算法的查询优化处理在这三个方面的综合评估和代价分析研究还较少。因此本文重点研究基于半连接的实现方法,综合考虑局部代价和传输代价的相对费用,计算所有评估方法的执行代价,选择其中执行代价较小的执行方法,最终确定执行的场地、连接的方法和传输的方法。
上文中提到的文献来源于如下的期刊:
[1]Nishiyama S.DISTRIBUTED DATABASE SYSTEM:US,US 20110010338A1[P].2011.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611138749.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种热点数据处理方法及其设备
- 下一篇:一种快速检索公交换乘方案的方法