[发明专利]分布式任务处理与异步模型训练系统、方法、设备及介质在审
申请号: | 202211091395.1 | 申请日: | 2022-09-07 |
公开(公告)号: | CN115562820A | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 张泽超;董建波;李豪 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06N3/04;G06N3/08 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 张爱;刘戈 |
地址: | 310023 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 任务 处理 异步 模型 训练 系统 方法 设备 介质 | ||
本申请实施例提供一种分布式任务处理与异步模型训练系统、方法、设备及介质。针对由多个第一节点和多个第二节点组成的分布式任务处理系统,第一节点可以从多个第二节点获取所需的多个任务数据以执行任务,第二节点可以通过物理网卡向多个第一节点提供多个任务数据。在能够不依赖全局同步信息的情况下,对第二节点下发到物理网卡的多个任务数据进行调度规划,既通过控制并发数保证任务数据从第二节点到第一节点的传输速度,又通过多个第一节点的调度优先级调整各个任务数据的发送优先级,使得多个第二节点可以在同一发送窗口发送同一第一节点的任务数据,便于第一节点同步获取所需的多个任务数据,解决事务长尾问题,提升整体的任务处理效率。
技术领域
本申请涉及互联网技术领域,尤其涉及一种分布式任务处理与异步模型训练系统、方法、设备及介质。
背景技术
PS-Worker架构是深度学习异步训练常见的解决方案之一。在PS-Worker架构中,将节点分为两类:参数服务器(Parameter Server,PS)和工作节点(Worker),PS用于存储模型训练所需的参数,Worker负责模型训练得到参数的梯度。在每个训练迭代过程中,Worker从PS获取模型训练所需的参数,然后基于参数进行模型训练得到参数的梯度,并将得参数的梯度返回给PS,PS聚合各Worker返回的参数的梯度,然后更新参数以用于后续迭代过程。
由于PS侧会同时收到来自多个Worker的多个任务请求,PS通过多线程处理任务请求后将需要返回的报文(即模型训练所需的参数)通过硬件网卡发送,在任务请求数量较多的情况下,硬件网卡侧需要同时发送大量的报文,不同任务请求对应的报文会共享网卡带宽,较大的并发数将会导致每个报文的到达时间都被延长,影响整体训练速度。因此,在PS使用的网卡资源有限的情况下,如何提升PS的响应速度是分布式训练过程中的一个重要课题。
发明内容
本申请的多个方面提供一种分布式任务处理与异步模型训练系统、方法、设备及介质,用以提高整体的任务处理效率和响应及时性。
本申请实施例提供一种一种分布式任务处理系统,用于对目标作业任务进行处理,目标作业任务包括可并行执行的多个子任务,该系统包括:用于执行多个子任务的多个第一节点,以及用于为多个第一节点提供执行子任务所需的任务数据的多个第二节点;每个第一节点对应多个第二节点中的至少两个第二节点,用于向至少两个第二节点分别发送任务请求,并根据至少两个第二节点根据任务请求提供的至少两个任务数据执行对应的子任务;其中,至少两个第二节点向同一第一节点提供不同的任务数据;每个第二节点对应多个第一节点中的至少两个第一节点,用于接收至少两个第一节点发送的至少两个任务请求,获取至少两个任务请求对应的至少两个任务数据;根据至少两个第一节点的调度优先级,按照预设的并发数N,在每个发送窗口从至少两个任务数据中读取N个任务数据,通过物理网卡将N个任务数据发送给当前被调度到的N个第一节点;其中,N是正整数,且小于第一节点的数量。
本申请实施例还提供一种异步模型训练系统,用于执行面向深度学习的异步模型训练任务,异步模型训练任务包括可并行执行的多个模型训练子任务,该系统包括多个参数服务器和多个工作节点;每个工作节点,用于向多个参数服务器中至少两个参数服务器发送参数获取请求,并根据至少两个参数获取请求提供的至少两个模型参数执行对应的模型训练子任务;其中,至少两个参数服务器向同一工作节点提供不同的模型参数;每个参数服务器负责为多个工作节点中至少两个工作节点提供模型参数,用于接收至少两个工作节点发送的参数获取请求,获取至少两个参数获取请求对应的至少两个模型参数并将至少两个模型参数封装成至少两个报文;根据至少两个工作节点的调度优先级,按照预设的并发数N,在每个发送窗口从至少两个报文中读取N个报文,通过物理网卡将N个报文发送给当前被调度到的N个工作节点;其中,N是正整数,且小于工作节点的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211091395.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、装置及设备
- 下一篇:一种土地资源管理用测量设备