[发明专利]使用作业服务器在大规模分布式系统上训练机器学习模型在审
申请号: | 201880018968.3 | 申请日: | 2018-04-13 |
公开(公告)号: | CN110462591A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 陈昕;周华;王冬岩 | 申请(专利权)人: | 美的集团股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 11270 北京派特恩知识产权代理有限公司 | 代理人: | 崔晓岚;张颖玲<国际申请>=PCT/CN |
地址: | 528311广东省佛山市顺德区北*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算节点 作业服务器 训练机器 机器学习模型 交换参数 作业分配 训练组 计算机系统 更新 权重 优选 学习 分配 | ||
1.一种方法,用于在包括作业服务器的计算机系统中训练多个机器学习模型,所述作业服务器通过网络与多个计算节点通信,其中,每个机器学习模型包括参数集合,所述方法包括:
所述作业服务器接收用于训练所述机器学习模型的多个训练作业;
所述作业服务器基于所述训练作业的当前要求和所述计算节点的当前状态,将所述训练作业分配给由一个或多于一个计算节点组成的训练组,包括所述作业服务器确定训练组所包括的计算节点;
所述训练组执行分配给所述训练组的训练作业,所述执行包括:
更新所述机器学习模型的所述参数的值;以及
对于包含了两个或多于两个计算节点的至少一个训练组,在训练组的计算节点之间交换所述参数的更新值,并使用所交换的更新值来推进所述训练作业。
2.根据权利要求1所述的方法,其中所述计算机系统具有主从架构,其中,所述作业服务器作为每个训练组的主机来操作,每个训练组作为所述作业服务器的从机来操作。
3.根据权利要求2所述的方法,其中,具有两个或多于两个计算节点的至少一个训练组内也具有主从架构,其中,所述训练组中的一计算节点作为所述训练组中其余计算节点的主机来操作,所述其余计算节点作为该一计算节点的从机来操作。
4.根据权利要求2所述的方法,其中,具有两个或多于两个计算节点的至少一个训练组内具有点对点架构。
5.根据权利要求2所述的方法,其中,对于具有两个或多于两个计算节点的至少一个训练组,所述训练作业从所述参数的初始值开始,以所述参数的最终值结束,所述训练组中的一计算节点将所述参数从所述初始值更新为所述最终值并进行存储。
6.根据权利要求1所述的方法,进一步包括:
所述作业服务器基于所述训练作业的当前要求和所述计算节点的当前状态来改变训练组所包括的计算节点。
7.根据权利要求1所述的方法,其中,基于所述计算节点的当前状态将所述训练作业分配给训练组包括:基于所述计算节点的当前能力和所述计算节点的当前可用性将所述训练作业分配给训练组。
8.根据权利要求1所述的方法,其中,所述作业服务器基于所述计算节点的计算能力和/或可用性、基于所述计算节点的数据存储能力和/或可用性,和/或基于所述计算节点之间的通信能力和/或可用性,将所述训练作业分配给训练组。
9.根据权利要求1所述的方法,其中,对于所述训练组,所述作业服务器规定在计算节点之间交换所述更新值。
10.根据权利要求1所述的方法,其中,所述所述训练作业从所述参数的初始值开始,通过所述参数的过渡值进行,并以所述参数的最终值结束,由所述训练组中的计算节点而不是所述作业服务器来确定所述参数的过渡值和最终值。
11.根据权利要求10所述的方法,其中,对于所述训练作业中的至少一个训练作业,所述作业服务器不访问所述最终值。
12.根据权利要求1所述的方法,进一步包括:
所述作业服务器监视所述训练组执行分配给所述训练组的训练作业。
13.根据权利要求1所述的方法,进一步包括:
所述作业服务器可视地显示所述训练作业中的至少一个训练作业的参数。
14.根据权利要求1所述的方法,进一步包括:
所述作业服务器可视地显示所述计算节点的当前状态和/或所述计算节点的当前可用性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美的集团股份有限公司,未经美的集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880018968.3/1.html,转载请声明来源钻瓜专利网。