[发明专利]一种面向MLaaS业务的在网计算资源调度方法和系统在审
申请号: | 202310274020.7 | 申请日: | 2023-03-21 |
公开(公告)号: | CN116320013A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 张明超;王晓亮 | 申请(专利权)人: | 南京大学 |
主分类号: | H04L67/60 | 分类号: | H04L67/60;H04L67/10;H04L41/16 |
代理公司: | 南京泉为知识产权代理事务所(特殊普通合伙) 32408 | 代理人: | 许丹丹 |
地址: | 210046 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 mlaas 业务 计算 资源 调度 方法 系统 | ||
本发明公开了一种面向MLaaS业务的在网计算资源调度方法和系统,所述方法包括:对于进入集群的计算任务,依次根据指定的计算节点分配方式得到计算节点分配方案,得到该分配方案下需要使用的ToR交换机,并得出该任务可行的高层交换机分配方案,计算节点分配方式包括:贪心计算节点分配方式,跳过交换机的计算节点分配方式,共享交换机的使用方式及共享交换机的计算节点分配方式;将全局高层交换机分配方案转换为对应的图染色问题,使用加入实际限制的模拟退火算法来求解问题,确定合理的全局分配方案,根据所确定的全局分配方案无缝切换已运行任务使用的交换机资源,并为新任务分配交换机资源。本发明可有效缓解MLaaS场景下的交换机资源的竞争。
技术领域
本发明涉及在网计算领域,具体涉及一种在网计算资源调度方法和系统。
背景技术
近年来,深度神经网络已成为许多应用的重要组成部分,包括计算机视觉、自然语言处理、系统等。为了支持大型训练数据集通常使用多机架集群的分布式训练。提供机器学习即服务(Machine Learning as a Service,MLaaS)正在成为一种新趋势。由于GPU硬件的发展和高性能GPU的出现,网络传输的开销逐渐成为机器学习任务训练过程中的重要组成部分。已经有许多工作提出了使用在网计算加速机器学习训练的方案。这些工作可以有效地加速网络敏感的机器学习任务。使用在网计算方案能够减少集合操作的延迟和提高集合操作的带宽。
图1演示了机器学习任务使用在网计算实现进行梯度聚合的过程。在开始训练之前,需要建立一棵交换机树,树上的每个节点是交换机。在训练的过程中,计算节点(即图1中Host)计算出的梯度在进行聚合前被拆分成片段,然后沿着图中的交换机树在每个交换机上聚合。来自不同子节点的相同序号的片段将在它们的父节点交换机求和得到中间结果,然后中间结果将被转发到更高层的交换机上进行聚合,交换机树的根节点将得到最终的聚合结果并将结果发送给它的子节点。使用交换机树聚合梯度可以将机器学习模型训练产生的流量减少一半,并将梯度聚合的延迟降低到sub-RTT级别。
现有在网计算方法在支持多任务时通常以消息粒度共享交换机上的资源,然而由于交换机设备高速缓存大小仅有约10MB,在100/200/400Gbps的高速网络中由于任务各个进程之间同步的差异,在实现在网计算的过程中数据需要暂存在交换机上。多任务共享交换机在网计算资源时可能会出现缓存不足的现象,导致传输降速。且机器学习训练任务通信需要高度的同步的限制,一台交换机在支持多个在网计算任务可能会相互干扰,即两个任务共享了一个交换机但是由于在该交换机上产生竞争,两个任务所有节点都需要降速。
而MLaaS环境中存在大量的任务竞争交换机资源,这种竞争可以分为两种,第一种发生在ToR(Top of Rack,架顶)交换机上,ToR交换机在交换机树中的最下层,即叶子节点,第二种发生在交换机树中高层的交换机上。两种竞争都会导致一些任务无法使用在网计算能力。第一种竞争是由ToR交换机下的计算节点碎片化导致的。MLaaS数据中心内不同的任务需要的计算节点数量和任务执行时间是不同的,所以一个ToR交换机下的计算节点可能被不同的作业占用。碎片导致ToR交换机可能需要处理多个任务的在网计算流量,即产生了ToR交换机上的竞争。第二种竞争是由在网计算使用的交换机树的特性导致的。由于在网计算在计算过程中需要在交换机上存储数据,交换机在任务完成前会保留一些数据,逻辑上形成树状结构。而由于作业过程中涉及到同步问题,这些数据难以迁移,作业进入和离开后高层交换机树因缺少迁移机制也可能发生竞争。
同时,在以数据划分的分布式机器学习的训练过程中可以发现它是由两部分的内容构成的,即计算和通信。在计算过程中,每个服务器会使用本地的训练数据对模型进行训练生成新的梯度更新。而在通信的过程中,每个服务器需要得到其它服务器计算的梯度更新通过加和平均得到整体的梯度更新,这个步骤通常由allreduce或者参数服务器完成。通信和计算以训练的step的形式在整个训练过程中不断重复。由于分布式机器学习训练的这种特点,可以发现整个训练过程中对于网络的使用是周期性地间歇使用,即在任务训练的过程中其占用的交换机存在周期性的空闲。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310274020.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种历史工程造价数据清洗方法
- 下一篇:轴承组合试验台架