[发明专利]一种面向MLaaS业务的在网计算资源调度方法和系统在审
申请号: | 202310274020.7 | 申请日: | 2023-03-21 |
公开(公告)号: | CN116320013A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 张明超;王晓亮 | 申请(专利权)人: | 南京大学 |
主分类号: | H04L67/60 | 分类号: | H04L67/60;H04L67/10;H04L41/16 |
代理公司: | 南京泉为知识产权代理事务所(特殊普通合伙) 32408 | 代理人: | 许丹丹 |
地址: | 210046 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 mlaas 业务 计算 资源 调度 方法 系统 | ||
1.一种面向MLaaS业务的在网计算资源调度方法,其特征在于,包括以下步骤:
对于进入集群要申请计算节点的计算任务,依次根据贪心计算节点分配方式、跳过交换机的计算节点分配方式、共享交换机的使用方式及共享交换机的计算节点分配方式得到计算节点分配方案,得到该分配方案下需要使用的ToR交换机,并得出该任务可行的高层交换机分配方案,其中,所述贪心计算节点分配方式优先分配未占用的ToR交换机下的计算节点;所述跳过交换机的计算节点分配方式对于仅有一个子节点的数据的交换机采取跳过方式,将计算任务转移到更高层交换机;所述共享交换机的使用方式在一个任务的计算阶段和同步梯度的通信阶段之间的周期性间隙中让另一个任务使用交换机进行在网计算;所述共享交换机的计算节点分配方式在不同的任务之间共享计算节点;
将全局高层交换机分配方案转换为对应的图染色问题,使用加入实际限制的模拟退火算法来求解问题,确定合理的全局分配方案,根据所确定的全局分配方案无缝切换已运行任务使用的交换机资源,并为新任务分配交换机资源。
2.根据权利要求1所述的方法,其特征在于,所述跳过交换机的计算节点分配方式包括:
统计每个交换机下的可分配计算节点数;
找到一个可分配计算节点数最小且大于任务需要分配计算节点数的未占用三层交换机;
在该三层交换机的子节点按照子节点的可分配计算节点数的降序分配并优先分配被占用的交换机下面的空闲计算节点。
3.根据权利要求2所述的方法,其特征在于,所述统计每个交换机下的可分配计算节点数包括:
若当前交换机未被占用,则可分配计算节点数为与之相连的低层交换机的可分配计算节点数之和;若当前交换机被占用,则可分配计算节点数为与之相连的低层交换机的可分配计算节点数的最大值,其中ToR交换机若被占用可分配计算节点个数为1,若未被占用则可分配计算节点个数为ToR交换机下空闲计算节点个数。
4.根据权利要求1所述的方法,其特征在于,所述共享交换机的使用方式包括:
在一个任务离开通信阶段时,通知与之共享的任务可以使用交换机进行在网计算;在所述一个任务进入通信阶段时,通知与之共享的任务禁止使用在网计算,收到回复后切换为使用在网计算。
5.根据权利要求4所述的方法,其特征在于,所述共享交换机的使用方式包括:
在任务的多个进程中分别维护控制线程和发送线程,发送线程完成实际allreduce消息的发送;控制线程负责接收通知消息,停止发送线程发送allreduce消息和同步其它进程最后一个发送的allreduce消息。
6.根据权利要求1所述的方法,其特征在于,所述共享交换机的计算节点分配方式包括:
获取当前系统中已运行的未进行共享的任务信息,包括运行任务的每次通信特征,以及该任务占用的ToR交换机下的节点个数;
通过当前任务的统计信息计算共享后的加速效果,决定与之共享的任务;
优先分配共享的任务所占用的ToR交换机下的计算节点,再分配未占用的ToR交换机下的计算节点。
7.根据权利要求6所述的方法,其特征在于,通过当前任务的统计信息计算共享后的加速效果包括:
在开始任务前测试运行,通过开启和关闭在网计算收集对于该任务通信阶段的提升效果;
通过模拟共享时新任务的通信阶段,发现部分通信阶段落入已运行任务通信间隙中,对于落入的部分使用开启在网计算时的通信时长,而对于未落入间隙部分,使用未开启在网计算时的通信时长,通过模拟得出共享时该任务收到在网计算加速的效果,选择一个共享后加速效果最好的模型与之共享。
8.根据权利要求1所述的方法,其特征在于,所述任务可行的高层交换机分配方案包括:
在确定分配的ToR交换机后,确定与之相连的二层交换机,在交换机连接数为k的fattree的网络拓扑中,存在k/2个等效的二层交换机组,对每个任务,从二层交换机组中选择相同位置的二层交换机形成k/2个等效的分配方案,其中共享交换机资源的任务视作一个任务,并为之分配交换机。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310274020.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种历史工程造价数据清洗方法
- 下一篇:轴承组合试验台架