[发明专利]一种优化网络多连接的系统和方法有效
申请号: | 201911021143.X | 申请日: | 2019-10-25 |
公开(公告)号: | CN110750560B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 汪诗烨;赵宇海;王国仁;季航旭;李博扬 | 申请(专利权)人: | 东北大学;北京理工大学 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 优化 网络 连接 系统 方法 | ||
本发明公开一种优化网络多连接的系统和方法,属于大数据处理技术领域。该系统包括基于数据字典的连接预算模块和逻辑图重构模块,其中基于数据字典的连接预算模块包括等深直方图生成单元和统计信息管理单元,并基于数据字典设计连接预算模型来描述数据分布质量s,用于连接逻辑图重构模块;逻辑图重构模块又分为连接顺序重排单元和DAG重构单元,运用该系统进行网络多连接优化的方法采用了启发式MMAS算法,保证在相对低的时间复杂度内得到近似最优解,大幅降低了多数据集连接计算的时间,解决现有技术中无法自动优化多连接顺序的问题,能够有效地减少程序的执行时间和网络传输、IO吞吐。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种优化网络多连接的系统和方法。
背景技术
连接操作是批处理中最常见也最昂贵的操作之一,对于多个数据源的连接操作,执行一组连接操作的顺序会对所需的计算、I/O吞吐和网络传输量产生重大影响,这将直接影响着系统的执行性能。
但是实际情况中,用户由于对数据集没有确切的概念而主观确定连接的执行顺序,因而用户手动完成的批处理程序的连接顺序往往都不是最优的。目前在大部分大数据处理系统中仅能根据用户逻辑处理固定运算符顺序的计划,为确定的逻辑计划生成不同的物理执行策略并通过成本估算以选择代价最小的物理执行计划,但是其并没有涉及到对多个数据源连接顺序的重排策略。而现有的多连接优化算法中,传统的动态规划算法有着较高的时间复杂度,随着连接节点的增加会导致优化方案计算时间大幅增加,进而致使程序总执行时间得不到有效减少。因而迫切的需要新的方法和技术来为多连接优化提供一种高效的方案。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种优化网络多连接的系统和方法。
为解决上述技术问题,本发明所采取的技术方案是:一种优化网络多连接的系统,该系统的结构如图1所示,包括基于数据字典的连接预算模块和逻辑图重构模块;
所述基于数据字典的连接预算模块包括:等深直方图生成单元和统计信息管理单元,并基于数据字典设计连接预算模型来描述数据分布质量s,用于连接逻辑图重构模块;
所述等深直方图生成单元描述数据源各列的数据分布信息,为后续连接预算模型的计算提供数据来源;
所述统计信息管理单元管理数据源各列生成的等深直方图和连接中间结果各列生成的等深直方图;
所述逻辑图重构模块包括:连接顺序重排单元和DAG重构单元;
所述连接顺序重排单元包括:动态代价估计算法和MMAS算法缩减逻辑计划空间;
所述动态代价估计算法结合连接预算模型实时计算某时刻所有存在连接关系的数据源两两连接生成的可选代价集合;
所述MMAS算法利用动态代价估计算法在线得到的可选代价集合缩减逻辑计划空间以得到接近最优的多连接逻辑执行序列;
所述DAG重构单元包括:连接查询二叉树生成和DAG整合;
所述连接查询二叉树将得到的多连接逻辑执行序列转换成系统可识别的由结点和信道构成的连接图;
所述DAG整合将用户逻辑图原有非多连接部分与调整后的连接图进行重构以生成新的逻辑图供后续任务继续进行。
为解决上述技术问题,本发明采用上述技术方法所述的优化网络多连接的系统进行多连接优化的方法,其流程如图2所示,包括如下步骤:
步骤1:基于数据字典设计连接预算模型来描述数据分布质量;
步骤1.1:采用等深直方图H来描述某一属性列数据分布的方式,等深直方图的处理过程示意图如图3所示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学;北京理工大学,未经东北大学;北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911021143.X/2.html,转载请声明来源钻瓜专利网。