[发明专利]一种分布式任务运行方法、系统及设备有效
申请号: | 201910841793.2 | 申请日: | 2019-09-06 |
公开(公告)号: | CN110609749B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 王益;严伟;唐源;章海涛;文春阳;李明昊;齐俊;刘勇峰 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王戈 |
地址: | 开曼群岛大开曼岛乔治镇医院*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 任务 运行 方法 系统 设备 | ||
本申请公开了一种分布式任务运行方法、系统及设备。本说明书一实施例的方法流程包括:获取任务分片,将任务分片分配给有效计算节点进行处理,获取任务结果。在分配任务分片的过程中:每个有效计算节点同一时间仅能分配一个任务分片,有效计算节点被分配任务分片后即开始运行任务分片,当有效计算节点完成其被分配的任务分片时,有效计算节点可被分配新的任务分片;当有效计算节点出错时,将出错的有效计算节点当前所分配到的任务分片重新分配;当有效计算节点被关闭或挪用时,将被关闭或挪用的有效计算节点当前所分配到的任务分片重新分配;当新的有效计算节点被拉起时,将未分配的任务分片分配给新的有效计算节点。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种分布式任务运行方法、系统及设备。
背景技术
分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算系统进行处理,最后把这些计算结果综合起来得到最终的结果。由于分布式计算在大数据运行处理方面的优势,当前在使用深度学习来训练的时候,用户提交的一个作业通常会选择分布式来执行,用多台机器来协同完成。
在一个有多台机器组成的计算集群中,“错误”的发生比想象中更常见,集群中偶发的机器故障或网络故障等,不同任务之间由于优先级不同而发生的“抢占”等,都会导致一个作业的某些任务出错。然而,由于分布式计算的原理是综合所有的分支计算系统的计算结果来获得最终的计算结果,因此,在分布式计算的执行过程中,一个作业的某些任务出错会对整个作业的进程产生严重影响,从而大大影响用于分布式计算的计算资源利用效率。
发明内容
有鉴于此,本说明书实施例提供了一种分布式任务运行方法、系统及设备,用于解决现有技术中分布式计算执行过程中计算资源利用效率低下的问题。
本说明书实施例采用下述技术方案:
本说明书实施例提供一种分布式任务运行方法,所述方法包括:
任务分割步骤,分割待处理任务,获取多个任务分片,其中,每个任务分片为一个独立的任务;
任务分配步骤,将所述任务分片分配给有效计算节点进行处理,其中:
每个所述有效计算节点同一时间仅能分配一个任务分片,所述有效计算节点被分配任务分片后即开始运行所述任务分片,当所述有效计算节点完成其被分配的任务分片时,所述有效计算节点可被分配新的任务分片;
当所述有效计算节点出错时,将出错的有效计算节点当前所分配到的任务分片重新分配;
当所述有效计算节点被关闭或挪用时,将被关闭或挪用的有效计算节点当前所分配到的任务分片重新分配;
当新的有效计算节点被拉起时,将未分配的任务分片分配给所述新的有效计算节点;
任务结果获取步骤,当任一有效计算节点完成一个任务分片时,获取对应的任务分片处理结果,综合任务分片对应的任务分片处理结果以获取所述待处理任务对应的任务处理结果。
在本说明书一实施例中,在所述任务分割步骤中:
分割所述待处理任务,其中,令每个所述任务分片满足预设数据量。
在本说明书一实施例中:
根据历史信息来确定所述预设数据量;
或者,
由用户自定义设置所述预设数据量。
在本说明书一实施例中,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910841793.2/2.html,转载请声明来源钻瓜专利网。