[发明专利]分布式任务处理与异步模型训练系统、方法、设备及介质在审
申请号: | 202211091395.1 | 申请日: | 2022-09-07 |
公开(公告)号: | CN115562820A | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 张泽超;董建波;李豪 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06N3/04;G06N3/08 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 张爱;刘戈 |
地址: | 310023 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 任务 处理 异步 模型 训练 系统 方法 设备 介质 | ||
1.一种分布式任务处理系统,其特征在于,用于对目标作业任务进行处理,所述目标作业任务包括可并行执行的多个子任务,所述系统包括:用于执行所述多个子任务的多个第一节点,以及用于为所述多个第一节点提供执行子任务所需的任务数据的多个第二节点;
每个第一节点对应所述多个第二节点中的至少两个第二节点,用于向所述至少两个第二节点分别发送任务请求,并根据所述至少两个第二节点根据所述任务请求提供的至少两个任务数据执行对应的子任务;其中,所述至少两个第二节点向同一第一节点提供不同的任务数据;
每个第二节点对应所述多个第一节点中至少两个第一节点,用于接收所述至少两个第一节点发送的至少两个任务请求,获取所述至少两个任务请求对应的至少两个任务数据;根据所述至少两个第一节点的调度优先级,按照预设的并发数N,在每个发送窗口从所述至少两个任务数据中读取N个任务数据,通过物理网卡将所述N个任务数据发送给当前被调度到的N个第一节点;其中,N是正整数,且小于所述第一节点的数量。
2.根据权利要求1所述的系统,其特征在于,每个第二节点具体用于:
获取所述至少两个第一节点对应的目标参数,根据所述至少两个第一节点的调度优先级,结合所述至少两个第一节点对应的目标参数,对所述至少两个任务数据进行排序;按照预设的并发数N,在每个发送窗口从排序后的至少两个任务数据中读取排在最前面的N个任务数据;
其中,所述目标参数用于保证每个第一节点对应的任务数据在设定时间内能够被发送出去。
3.根据权利要求2所述的系统,其特征在于,每个第二节点获取所述至少两个第一节点对应的目标参数,包括:针对所述至少两个第一节点中每个第一节点,从每个第一节点发送的任务请求中获取所述第一节点的当前任务轮数,作为所述第一节点对应的目标参数,所述当前任务轮数表示第一节点当前执行子任务的轮数。
4.根据权利要求3所述的系统,其特征在于,每个第二节点还用于维护第一发送任务队列,所述第一发送任务队列用于存储所述多个任务数据;
相应地,每个第二节点根据所述至少两个第一节点的调度优先级,结合所述至少两个第一节点对应的目标参数,对所述至少两个任务数据进行排序,包括:
每当获取到一个任务请求对应的任务数据时,根据所述任务数据以及所述第一发送任务队列中已有任务数据对应的第一节点的当前任务轮数,确定所述任务数据在所述第一发送任务队列中的目标位置范围,其中,同一位置范围内的任务数据对应的第一节点的当前任务轮数相同;
根据所述任务数据以及所述目标位置范围内已有任务数据对应的第一节点的调度优先级,将所述任务数据插入所述目标位置范围内已有任务数据中。
5.一种异步模型训练系统,其特征在于,用于执行面向深度学习的异步模型训练任务,所述异步模型训练任务包括可并行执行的多个模型训练子任务,所述系统包括多个参数服务器和多个工作节点;
每个工作节点,用于向所述多个参数服务器中至少两个参数服务器发送参数获取请求,并根据所述至少两个参数获取请求提供的至少两个模型参数执行对应的模型训练子任务;其中,所述至少两个参数服务器向同一工作节点提供不同的模型参数;
每个参数服务器负责为所述多个工作节点中至少两个工作节点提供模型参数,用于接收所述至少两个工作节点发送的参数获取请求,获取所述至少两个参数获取请求对应的至少两个模型参数并将所述至少两个模型参数封装成至少两个报文;根据所述至少两个工作节点的调度优先级,按照预设的并发数N,在每个发送窗口从所述至少两个报文中读取N个报文,通过物理网卡将所述N个报文发送给当前被调度到的N个工作节点;其中,N是正整数,且小于所述工作节点的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211091395.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、装置及设备
- 下一篇:一种土地资源管理用测量设备