[发明专利]一种集群训练节点分配方法、电子设备在审
申请号: | 202110185105.9 | 申请日: | 2021-02-10 |
公开(公告)号: | CN112925640A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 郑达韡;徐进 | 申请(专利权)人: | 杭州幻方人工智能基础研究有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/48;G06F9/455;G06F11/30;G06N3/08;G06N20/00 |
代理公司: | 杭州之江专利事务所(普通合伙) 33216 | 代理人: | 张慧英 |
地址: | 310000 浙江省杭州市下城区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集群 训练 节点 分配 方法 电子设备 | ||
本发明涉及节点分配领域,尤其涉及一种集群训练节点分配方法、电子设备,包括:设置训练分配参数,提交集群训练任务;获取可用节点集合M,获取所有分组信息列表及选择的请求组别名称对应的节点列表,获取请求节点集合Y;获取预分配可用节点集合Z=M∩Y;检查预分配可用节点集合Z中的节点数是否满足请求节点数量;满足则建立容量为请求节点数量的分配执行节点集合;将指定节点放入分配执行节点集合;对预分配可用节点集合Z中的节点按优先级排序,并依次放入分配执行节点集合中直到装满;锁定分配执行节点,分发任务,开始任务训练。本发明的有益效果在于:优化节点分配方式,充分利用设备资源,减少训练任务的总体报错率、故障率。
技术领域
本发明涉及节点分配领域,尤其涉及一种集群训练节点分配方法、电子设备。
背景技术
随着AI技术的发展,众多复杂的AI程序模型需要在计算集群上进行机器训练。由于多用户对集群节点资源的同时使用,在训练过程中,针对一个单机或多机训练任务,需要对节点计算机的资源进行分配。
现有技术中对节点计算机的分配是单向的、静态的,要么由用户直接选择训练组别训练节点计算机,要么系统根据剩余节点资源直接分配。并且除非用户主动禁用某报错较多的节点,在节点分配的时候一般不会根据运行状态进行调整,这种单向静态的分配方式难以实现计算资源分配的动态优化,让状态好的资源得到充分返回和利用。这容易造成资源分配不当,资源过载、报错较多,用户使用体验不佳的情况。
发明内容
本发明为克服上述的不足之处,目的在于提供一种集群训练节点分配方法、电子设备,动态调整节点分配,优化资源配置,提高用户体验。
本发明是通过以下方案达到上述目的:一种集群训练节点分配方法,包括以下步骤:
(1)设置训练分配参数,提交集群训练任务;所述训练分配参数包括组别名称、请求节点数量、也可以包括指定节点编号;
(2)获取可用节点集合M,获取所有分组信息列表及选择的请求组别名称对应的节点列表,获取请求节点集合Y;
(3)获取预分配可用节点集合Z,可用节点集合M和请求节点集合Y取交集得到预分配可用节点集合Z=M∩Y;
(4)检查预分配可用节点集合Z中的节点数是否满足请求节点数量,不满足则返回步骤(1);满足则建立容量为请求节点数量的分配执行节点集合;
(5)将指定节点放入分配执行节点集合;
(6)对预分配可用节点集合Z中的节点按预设规则进行优先级排序,并依次放入分配执行节点集合中,直到分配执行节点集合容量装满;
(7)锁定分配执行节点集合中的节点,将训练任务分发至分配执行节点,开始任务训练,训练过程中对节点运行状态进行监控。
作为优选,所述步骤(1)还包括选择训练环境组件选项,训练环境组件选项包括:镜像文件名称、启动参数、外部环境变量、配置参数和配置文件名称,所述配置参数包括系统资源分配参数。
作为优选,所述可用节点集合为所有集群节点中运行状态正常、不在锁定状态、不被禁用且不执行任务的节点;
作为优选,选择的请求组别名称对应的节点列表后需要检查组别名称和列表节点编号是否合法。
作为优选,所述预设规则为:每个节点对应的运行状态分数从高到低优先级进行排序。
作为优选,所述运行状态分数获取方法为:初始阶段每个节点被赋予一个初始运行状态分数,在训练运行过程中,收集每个节点报错信息,每收到一个报错信息,该节点被扣一分。
作为优选,所述步骤(7)中锁定状态节的点会在满足以下情况之一时被解除:1、任务分发完成开始运行训练任务;2、5分钟超时解除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州幻方人工智能基础研究有限公司,未经杭州幻方人工智能基础研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110185105.9/2.html,转载请声明来源钻瓜专利网。