[发明专利]分布式作业调整方法、主节点、系统、物理机及存储介质有效

专利信息
申请号: 202110950182.9 申请日: 2021-08-18
公开(公告)号: CN113407354B 公开(公告)日: 2022-01-21
发明(设计)人: 韩颖;闵雪宾;张炜;汤志鹏;郑君正;陆一峰;陈颖达 申请(专利权)人: 阿里云计算有限公司
主分类号: G06F9/50 分类号: G06F9/50;G06N20/00
代理公司: 上海知锦知识产权代理事务所(特殊普通合伙) 31327 代理人: 汤陈龙
地址: 310024 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分布式 作业 调整 方法 节点 系统 物理 存储 介质
【权利要求书】:

1.一种分布式作业调整方法,其中,包括:

获取用户提交的作业;

生成所述作业的执行计划,所述执行计划包括多个执行阶段,所述多个执行阶段包括上游执行阶段以及所述上游执行阶段的直接下游执行阶段;

在作业的执行过程中,获取所述上游执行阶段的输出数据的统计信息;

根据所述统计信息,对所述直接下游执行阶段进行配置,以使得所述直接下游执行阶段基于配置结果执行作业;

所述生成所述作业的执行计划包括:

根据作业的源数据预估的数据大小,生成具有多个候选信息的物理计划,一个候选信息表示所述源数据在作业执行过程中使用的一个任务,所述多个候选信息包括第一候选信息以及第二候选信息;将物理计划转换为算子树,算子树包括物理计划的一个或多个原始任务,一个原始任务使用一个或多个算子;在算子树中根据第一候选信息转化第一执行路径,以及根据第二候选信息转化第二执行路径;在算子树的第一执行路径和第二执行路径的上游设置控制节点,以得到执行计划。

2.根据权利要求1所述的方法,其中,所述统计信息包括如下至少一项:输出数据的数据量、输出数据的数据分区的数据量分布信息、输出数据的每个数据分区的序列化数据记录Record数量。

3.根据权利要求2所述的方法,其中,所述根据所述统计信息,对所述直接下游执行阶段进行配置包括如下至少一项:

根据所述统计信息,对所述直接下游执行阶段配置并发度;

根据所述统计信息,为所述直接下游执行阶段分配数据分区;

根据所述统计信息,选择后续执行的直接下游执行阶段,其中,所述上游执行阶段在下游存在候选的多条执行路径,一条执行路径中的执行阶段至少包括所述上游执行阶段的直接下游执行阶段。

4.根据权利要求3所述的方法,其中,所述统计信息包括输出数据的数据分区的数据量分布信息;所述方法还包括:至少对所述多个执行阶段中首先执行的执行阶段初始化配置并发度;

所述根据所述统计信息,对所述直接下游执行阶段配置并发度包括:

根据所述直接下游执行阶段的工作节点对应的理想数据量,以及所述数据量分布信息,确定为所述直接下游执行阶段的工作节点分配的处理数据量;

根据所述直接下游执行阶段中分配处理数据量的工作节点的数量,配置所述直接下游执行阶段的并发度。

5.根据权利要求4所述的方法,其中,所述根据所述直接下游执行阶段的工作节点对应的理想数据量,以及所述数据量分布信息,确定为所述直接下游执行阶段的工作节点分配的处理数据量包括:

将连续且总数据量不超出所述理想数据量的多个数据分区,分配给所述直接下游执行阶段的一个工作节点,且所述直接下游执行阶段的各工作节点分配的处理数据量趋近于均匀分布,其中,所述直接下游执行阶段的一个工作节点分配的数据分区的数量不大于设定的数量上限。

6.根据权利要求4所述的方法,其中,所述统计信息还包括每个数据分区的Record数量;所述根据所述直接下游执行阶段中分配处理数据量的工作节点的数量,配置所述直接下游执行阶段的并发度包括:

根据所述直接下游执行阶段中分配处理数据量的工作节点的数量,工作节点分配的数据分区的Record数量、工作节点的算子数目以及算子复杂度,确定为所述直接下游执行阶段配置的并发度。

7.根据权利要求3所述的方法,其中,所述统计信息包括输出数据的数据分区的数据量分布信息,所述数据量分布信息指示输出数据的每个数据分区的数据量;所述根据所述统计信息,为所述直接下游执行阶段分配数据分区包括:

根据理想数据量,将所述输出数据中数据量大于理想数据量的数据分区进行拆分;

将拆分后的数据分区分配给所述直接下游执行阶段,且一个拆分后的数据分区配置为由所述直接下游执行阶段的一个工作节点执行。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里云计算有限公司,未经阿里云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110950182.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top