[发明专利]用于训练学习机的方法和装置有效
申请号: | 201680076481.1 | 申请日: | 2016-03-18 |
公开(公告)号: | CN108431794B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 陈凯;霍强 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06N20/20 | 分类号: | G06N20/20;G06N20/00;G06K9/62 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 王英;刘炳胜 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 训练 学习机 方法 装置 | ||
1.一种用于训练学习机的方法,包括:
向多个工作节点广播针对一训练周期的初始全局模型;
从所述多个工作节点接收多个更新的局部模型,其中每一个更新的局部模型是由所述多个工作节点中的一个工作节点基于被分配给该工作节点的数据片和针对所述训练周期的所述初始全局模型独立地生成的;
聚合所述多个更新的局部模型以获取聚合模型;以及
至少基于所述聚合模型和从在前的训练周期获取的历史信息来生成针对所述训练周期的更新的全局模型,
其中,生成针对所述训练周期的更新的全局模型进一步包括:
基于所述聚合模型和针对所述训练周期的所述初始全局模型来确定第一全局模型更新,
使用来自所述在前的训练周期的所述历史信息对所述第一全局模型更新进行过滤以确定第二全局模型更新,以及
基于针对所述在前的训练周期的更新的全局模型和所述第二全局模型更新来生成针对所述训练周期的所述更新的全局模型。
2.如权利要求1所述的方法,其中
针对所述训练周期的所述初始全局模型是针对所述在前的训练周期的更新的全局模型;或者
针对所述训练周期的所述初始全局模型是基于针对所述在前的训练周期的更新的全局模型和来自所述在前的训练周期的所述历史信息确定的。
3.如权利要求1所述的方法,其中
每一个更新的局部模型是利用以下算法中的一个生成的:利用动量手段的一个横扫的小批量随机梯度下降(SGD)、自然梯度SGD和异步SGD(ASGD)。
4.如权利要求1所述的方法,还包括:
基于所述第二全局模型更新来生成来自所述训练周期的历史信息。
5.如权利要求4所述的方法,其中
来自所述训练周期的所述历史信息Δ(t)利用以下等式生成:
Δ(t)=ηt·Δ(t-1)+ζt·G(t),0<ηt<1,ζt>0,
其中Δ(t-1)表示来自所述在前的训练周期的所述历史信息,
其中表示所述聚合模型,以及Wg(t-1)表示针对所述训练周期的所述初始全局模型,
ηt是针对所述训练周期的块动量,以及
ζt是针对所述训练周期的块学习速率。
6.如权利要求5所述的方法,其中
ζt近似等于1。
7.如权利要求5所述的方法,其中
如果训练迭代中的训练周期的数目小,则ηt被设置为相对小。
8.如权利要求1所述的方法,其中聚合所述多个更新的局部模型进一步包括:
对所述多个更新的局部模型求平均以获取所述聚合模型。
9.如权利要求1所述的方法,还包括:
在包括M’个训练周期的训练迭代之前,向每一个工作节点提供被分配给该工作节点用于所述训练迭代的M’个数据片,其中M’是大于1的整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680076481.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:使用词汇表生成流分析应用
- 下一篇:用于信息捕获和呈现的方法和设备