[发明专利]使用作业服务器在大规模分布式系统上训练机器学习模型在审
申请号: | 201880018968.3 | 申请日: | 2018-04-13 |
公开(公告)号: | CN110462591A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 陈昕;周华;王冬岩 | 申请(专利权)人: | 美的集团股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 11270 北京派特恩知识产权代理有限公司 | 代理人: | 崔晓岚;张颖玲<国际申请>=PCT/CN |
地址: | 528311广东省佛山市顺德区北*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算节点 作业服务器 训练机器 机器学习模型 交换参数 作业分配 训练组 计算机系统 更新 权重 优选 学习 分配 | ||
一种用于训练机器学习模型的计算机系统,包括作业服务器和多个计算节点。作业服务器接收用于训练机器学习模型的作业,并将这些训练作业分配给由一个或多于一个计算节点组成的组。该分配基于训练作业的当前要求和计算节点的当前状态。训练作业包括更新机器学习模型的诸如权重、偏差等参数的值。优选在训练组中的计算节点中交换参数的更新值,以完成训练作业。
技术领域
本发明总体涉及机器学习,更具体地,涉及用于训练机器学习模型的分布式架构。
背景技术
基于大规模数据集训练得到的现代深度学习架构可以在包括语音和图像识别、图像分割、图像/视频理解和分析、自然语言处理以及诸如欺诈检测、医疗系统和推荐系统等各种应用在内的广泛领域获得令人印象深刻的性能。然而,训练这些机器学习模型对计算有很高的要求。在单台机器上进行训练是不切实际的,所要花费的时间过长。
因此,可以分配由包括多台机器的分布式系统来执行训练机器学习模型的任务。然而,这种做法引入了其本身的问题。训练涉及大量数据。训练集典型地包含大量训练样本。诸如图像、视频、文本或音频等每个训练样本都可能非常大。机器学习模型本身也可能非常大,需要训练的有诸如权重、偏差等大量的参数以及大量的层。当前的训练方法中,典型地分配单台机器(参数服务器)来保存机器学习模型的各参数的主版本,并针对整个训练任务对这些参数进行同步以及更新。因此,大量的数据在参数服务器和其它机器之间交换。当在大规模分布式系统上训练大规模的模型时,需要巨大的通信带宽。
如果希望高效并有效地同时在大规模分布式系统中的多个机器上训练一个模型或者训练多个机器学习模型,则所需的通信带宽更多,且参数服务器很快成为训练的瓶颈。因此,需要对通信带宽进行巨大的投资,否则在通信带宽有限的情况下,整体训练容量也将受到限制。
因此,需要改进在大规模分布式系统上训练机器学习模型的方法。
发明内容
本公开通过使用包括作业服务器和多个计算节点的大规模分布式计算机系统克服了现有技术的限制。作业服务器将用于将训练机器学习模型的作业分配给由一个或多于一个计算节点组成的组。这些训练组执行训练作业。但是,模型的参数的值的更新和更新值的交换优选地在训练组的计算节点内(而不是在训练组和作业服务器之间)完成。这样就减少了对作业服务器的通信要求。
在一个实施方式中,作业服务器接收用于训练不同的机器学习模型的多个作业。作业服务器基于训练作业的当前要求和计算节点的当前状态,将训练作业分配给由一个或多于一个计算节点组成的训练组。训练要求的示例包括对计算力、数据存储、通信带宽和/或专用能力的要求。节点状态通常包括节点能力和节点可用性。训练组执行分配给所述训练组的训练作业。随着训练的进行,该执行典型地包括更新模型的诸如权重、偏差等参数的值。训练组优选包括两个或多于两个计算节点。该更新以及更新值的交换是在训练组内的计算节点中完成的,从而减少了与组外的通信。
每个训练组内的架构可以因组而异,所说明的方法可以是层级式的。例如,计算节点之一可以充当训练组的本地作业服务器和/或参数服务器,其余的计算节点被组织成子组。随着训练的进行、随着训练作业的排定或完成以及随着计算节点变得可用或不可用,训练作业在训练组间的分配和训练组的组成也可能动态地变化。
工作量减少后,作业服务器(和其它服务器)可以用于执行诸如机器学习模型及其训练的可视化或报告系统中计算节点的状态等附加的任务。
其它方面包括组成部分、装置、系统、改进、方法、过程、应用、计算机可读介质以及与以上相关的任何其它技术。
附图说明
结合以下附图,由以下具体实施方式和权利要求书,将更容易了解本公开的实施例所具有的其它有益效果和特点。
图1是根据本发明的包括作业(job)服务器的大规模分布式计算机系统的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美的集团股份有限公司,未经美的集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880018968.3/2.html,转载请声明来源钻瓜专利网。