[发明专利]异步梯度平均的分布式随机梯度下降法在审
申请号: | 201780094579.4 | 申请日: | 2017-09-04 |
公开(公告)号: | CN111052155A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 吴祖光;罗曼·塔利扬斯基;内坦·彼得弗洛恩德 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异步 梯度 平均 分布式 随机 下降 | ||
1.一种在多个计算节点上分布式训练机器学习模型的系统,其特征在于,包括:
服务器,与多个计算节点连接,用于在多轮训练迭代中控制机器学习模型的训练,所述多轮迭代分别包括:
指示所述多个计算节点分别通过如下方式对存储在每个相应处理节点本地的所述机器学习模型的相应本地副本进行训练:本地计算多个累积梯度中的相应累积梯度,其中,所述多个累积梯度分别包括至少一个梯度,
分别从所述多个计算节点获取所述多个累积梯度,
通过将所述机器学习模型与所述多个累积梯度的汇总值合并来创建更新的机器学习模型;
其中,在所述获取和创建阶段,所述多个计算节点中的至少一个计算节点计算新的相应累积梯度,所述新的相应累积梯度在下一轮训练迭代中与所述机器学习模型合并。
2.根据权利要求1所述的系统,其特征在于,所述服务器分别将所述相应本地副本分发给所述多个计算节点,其中,在所述分发期间,所述至少一个计算节点计算所述新的相应累积梯度。
3.根据权利要求1所述的系统,其特征在于,所述多个计算节点分别从所述服务器获取相应本地副本,其中,在所述获取期间,所述至少一个计算节点计算所述新的相应累积梯度。
4.根据前述权利要求中的任一项所述的系统,其特征在于,通过应用随机梯度下降法来计算由所述多个计算节点中的每个计算节点计算的至少一个梯度,以最小化所述相应本地副本的损失函数,所述损失函数是根据所述机器学习模型选择的。
5.根据前述权利要求中的任一项所述的系统,其特征在于,所述多个计算节点分别使用训练数据集的子集来训练所述相应本地副本。
6.根据前述权利要求中的任一项所述的系统,其特征在于,所述汇总值是所述多个累积梯度的平均值。
7.根据前述权利要求中的任一项所述的系统,其特征在于,所述多个计算节点分别使用至少一个额外梯度重复更新相应的累积梯度,直到超过延迟阈值为止。
8.根据前述权利要求中的任一项所述的系统,其特征在于,在所述多轮训练迭代中的每轮训练迭代开始时,所述至少一个计算节点将所述更新的机器学习模型的相应副本与在前一轮训练迭代的获取和创建阶段计算出的、未与所述更新的机器学习模型合并的新的相应累积梯度在本地进行合并。
9.根据权利要求8所述的系统,其特征在于,在所述新的累积梯度与在前一轮训练迭代中创建的所述更新的机器学习模型在本地合并之前,所述至少一个计算节点阻止所述服务器获取所述新的累积梯度。
10.一种在多个计算节点上分布式训练机器学习模型的方法,其特征在于,包括:
通过多轮训练迭代来训练机器学习模型,所述多轮迭代分别包括:
指示多个计算节点分别通过如下方式对所述机器学习模型的相应本地副本进行训练:本地计算多个累积梯度中的相应累积梯度,所述多个累积梯度分别包括至少一个梯度,
在确定可分别从所述多个计算节点获取相应的累积梯度后,获取所述多个累积梯度,
通过将所述机器学习模型与所述多个累积梯度的汇总值合并来创建更新的机器学习模型;
其中,在所述获取和创建阶段,所述多个计算节点中的至少一个计算节点计算新的相应累积梯度,所述新的相应累积梯度在下一轮训练迭代中与所述机器学习模型合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780094579.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:Zn-Al-Mg系镀覆钢板
- 下一篇:用于制造部件的方法及其工具