[发明专利]分布式计算方法、装置及系统在审

专利信息
申请号: 202010759241.X 申请日: 2020-07-31
公开(公告)号: CN114064255A 公开(公告)日: 2022-02-18
发明(设计)人: 李瑞盛;胡进军 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F9/50 分类号: G06F9/50
代理公司: 北京展翼知识产权代理事务所(特殊普通合伙) 11452 代理人: 王明远
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分布式 计算方法 装置 系统
【说明书】:

公开了一种分布式计算方法、装置及系统。获取计算作业;将计算作业针对的待处理的数据切分为多个数据块;将计算作业划分为多个映射任务和一个或多个化简任务,并将映射任务和化简任务分配给多个工作节点,其中,每个映射任务对应一个数据块,分配了映射任务的第一工作节点用于对数据块进行处理,以得到中间处理结果,分配了化简任务的第二工作节点的输入来源于第一工作节点的输出;确定与计算作业相适配的分区方式,分区方式用于对多个映射任务产生的中间处理结果进行分区;基于确定的分区方式对第一工作节点的输出进行分区;将同一分区的中间处理结果分配给同一第二工作节点。由此,可以满足用户的个性化分区需求。

技术领域

本公开涉及计算领域,特别是涉及一种分布式计算方法、装置及系统。

背景技术

MapReduce是指用于大规模数据并行化运算的编程模型和执行框架,MapReduce框架允许用户可以使用函数式编程的思想来表述作业处理逻辑,只要实现Map(映射)、Reduce(化简)即可提交实现分布式作业,而不用关心分布式并行化的细节。很多分布式平台都提供了MapReduce的编程接口,用户按照接口提供Map、Reduce程序的实现,执行框架会自动调用相关程序在分布式平台上并行执行,做大规模分布式运算。

Shuffle机制是MapReduce框架的核心部分,包含数据分区、排序、缓存多个关键过程,包含数据从Map阶段输出传递给Reduce阶段输入的整个过程。

Shuffle是连接Map和Reduce之间的桥梁。Map的输出要传递到Reduce中必须经过Shuffle这个环节,Shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,ReduceTask(Reduce任务)需要跨节点去拉取其它节点上的MapTask(Map任务)结果。而这其中Partitioner(分区器)是Shuffle机制的核心,用于在Shuffle阶段对MapTask产生的中间结果进行分片,以便将同一分组的数据交给同一个ReduceTask处理。Partitioner对分布式计算的性能和数据倾斜、负载均衡等影响至关重要。

现有技术中Partitioner的分区算法都是由平台内置的,不能满足上层用户作业的个性化分区需求。

发明内容

本公开要解决的一个技术问题是提供一种能够满足上层用户作业的个性化分区需求的方案。

根据本公开的第一个方面,提供了一种计算方法,包括:获取计算作业;将计算作业针对的待处理的数据切分为多个数据块;将计算作业划分为多个映射任务和一个或多个化简任务,并将映射任务和化简任务分配给多个工作节点,其中,每个映射任务对应一个数据块,分配了映射任务的第一工作节点用于对数据块进行处理,以得到中间处理结果,分配了化简任务的第二工作节点的输入来源于第一工作节点的输出;确定与计算作业相适配的分区方式,分区方式用于对多个映射任务产生的中间处理结果进行分区;基于确定的分区方式对第一工作节点的输出进行分区;将同一分区的中间处理结果分配给同一第二工作节点。

根据本公开的第二个方面,还提供了一种计算装置,包括:获取模块,用于获取计算作业;切分模块,用于将计算作业针对的待处理的数据切分为多个数据块;划分模块,用于将计算作业划分为多个映射任务和一个或多个化简任务,并将映射任务和化简任务分配给多个工作节点,其中,每个映射任务对应一个数据块,分配了映射任务的第一工作节点用于对数据块进行处理,以得到中间处理结果,分配了化简任务的第二工作节点的输入来源于第一工作节点的输出;确定模块,用于确定与计算作业相适配的分区方式,分区方式用于对多个映射任务产生的中间处理结果进行分区;分区模块,用于基于确定的分区方式对第一工作节点的输出进行分区;分配模块,用于将同一分区的中间处理结果分配给同一第二工作节点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010759241.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top