[发明专利]用于训练学习机的方法和装置有效
申请号: | 201680076481.1 | 申请日: | 2016-03-18 |
公开(公告)号: | CN108431794B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 陈凯;霍强 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06N20/20 | 分类号: | G06N20/20;G06N20/00;G06K9/62 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 王英;刘炳胜 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 训练 学习机 方法 装置 | ||
本公开涉及用于训练学习机的方法和装置,其中,所述装置包括:广播模块,用于向多个工作节点广播针对一训练周期的初始全局模型;接收模块,用于从所述多个工作节点接收多个更新的局部模型,其中每一个更新的局部模型是由所述多个工作节点中的一个工作节点基于被分配给该工作节点的数据片和针对所述训练周期的所述初始全局模型独立地生成的;聚合模块,用于聚合所述多个更新的局部模型以获取聚合模型;以及,生成模块,用于至少基于所述聚合模型和从在前的训练周期获取的历史信息来生成针对所述训练周期的更新的全局模型。
技术领域
本公开通常涉及学习机技术,尤其涉及用于训练学习机的方法和装置。
背景技术
深度学习机,包括深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)和它们的变型,已经变成用于执行诸如语音识别、图像识别、手写分析和对象分类这样的任务的最新解决方案。
可以利用诸如小批量随机梯度下降(SGD)、异步SGD、模型平均、异步SGD和模型平均的组合等这样的技术来训练深度学习机以执行特定任务。然而,这些技术的每一个都存在缺陷。例如,小批量SGD是顺序的训练过程。相应地,使用小批量SGD来训练深度学习机很难在多个计算设备上实现并行化。此外,虽然诸如异步SGD和模型平均这样的技术可以使训练在多个计算节点上实现并行化成为可能,但是利用这样的技术训练的深度学习机产生的结果通常劣于利用小批量SGD产生的结果。
发明内容
本公开的实施例提供了用于训练学习机的方法和装置,其可以加速学习机的训练和提高学习机的准确度。
按照本公开的一个实施例,用于训练学习机的方法可以包括向多个工作节点广播针对一训练周期的初始全局模型。所述方法还可以包括从所述多个工作节点接收多个更新的局部模型,其中,每一个更新的局部模型是由所述多个工作节点中的一个工作节点基于被分配给该工作节点的数据片和针对所述训练周期的所述初始全局模型而独立地生成的。所述方法还可以包括聚合所述多个更新的局部模型以获得聚合模型。所述方法还可以包括至少基于所述聚合模型和从在前的训练周期获得的历史信息来生成针对所述训练周期的更新的全局模型。
按照本公开的一个实施例,用于训练学习机的装置可以包括广播模块,其用于向多个工作节点广播针对一训练周期的初始全局模型。所述装置还可以包括接收模块,其用于从所述多个工作节点接收多个更新的局部模型,其中,每一个更新的局部模型是由所述多个工作节点中的一个工作节点基于被分配给该工作节点的数据片和针对所述训练周期的所述初始全局模型而独立地生成的。所述装置还可以包括聚合模块,其用于聚合所述多个更新的局部模型以获得聚合模型。所述装置还可以包括生成模块,其用于至少基于所述聚合模型和从在前的训练周期获得的历史信息来生成针对所述训练周期的更新的全局模型。
附图说明
从以下结合附图提供的详细描述中,本公开的特征、特性和优点将变得更加显而易见,其中,在不同的图中相同的附图标记的使用表示类似或相同的项目。
图1举例说明了按照本公开的一个实施例的用于训练学习机的示例系统。
图2举例说明了按照本公开的一个实施例的用于训练学习机的示例方法。
图3举例说明了按照本公开的一个实施例的用于训练学习机的方法。
图4举例说明了按照本公开的一个实施例的用于训练学习机的装置。
图5举例说明了按照本公开的一个实施例的用于训练学习机的设备。
具体实施方式
在下面的描述中,出于解释的目的,许多具体的细节被阐述以便提供对一个或多个实施例的透彻理解。但是,显然这样的实施例可以在没有这些具体的细节的情况下被实施。在其它示例中,没有详细地举例说明或描述公知的方法、过程、组件和电路,以便不模糊特定的实施例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680076481.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:使用词汇表生成流分析应用
- 下一篇:用于信息捕获和呈现的方法和设备