[发明专利]用于训练神经网络的计算系统有效
申请号: | 201911225718.X | 申请日: | 2014-09-12 |
公开(公告)号: | CN110992935B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | J·兰福德;G·李;F·T·B·赛德;J·德罗普;D·俞 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/26;G06N3/084 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈小刚 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 训练 神经网络 计算 系统 | ||
本公开涉及用于训练神经网络的计算系统。各技术和构造可减少确定优化问题(如神经网络的训练)的解所需的时间。可由并行地操作的多个节点确定对计算模型的修改。经量化的修改值可以在各节点之间传送以减少要传送的数据量。经量化的值可小至每一者一位。量化‑误差值可被存储并用于量化后续修改。各节点可并行地操作且使计算和数据传输重叠以进一步减少确定解所需的时间。经量化的值可被分区且每一节点可合计对应分区的值。
本发明专利申请是国际申请号为PCT/CN2014/086398,国际申请日为2014年9月12日,进入中国国家阶段的申请号为201480068322.8,名称为“用于训练神经网络的计算系统”的发明专利申请的分案申请。
技术领域
本公开涉及用于训练神经网络的计算系统。
背景技术
深神经网络对各种各样的识别问题而言是有用的。例如,使用上下文相关的深神经网络隐马尔科夫模型(CD-DNN-HMM)来用于语音识别或语音-到-文本转录的声学建模技术胜过使用常规基于高斯混合的HMM的声学建模技术。与基于高斯混合的HMM不同,CD-DNN-HMM使用具有多个隐藏层的人工神经网络(“深神经网络”)来直接建模所绑定的上下文相关状态。然而,训练CD-DNN-HMM来用于语音识别比训练基于高斯混合的HMM更加耗时。深神经网络与其他办法相比的较大的训练时间量是将深神经网络用于识别问题(例如,语音识别)的主要障碍。
已作出尝试来通过使用并行化(例如,跨多个服务器独立地处理语言话音)改进常规深神经网络的训练。在一批数以亿计的帧结束后,来自服务器的部分统计数据可被合并,且经更新的模型可被分发给各服务器。然而,与数以亿计的帧相对应的经更新的模型的大小通常超过可用计算资源的容量。
发明内容
本公开描述了用于在数学上优化例如用于训练深神经网络(DNN)的计算模型的解的系统、方法以及计算机可读介质。在至少一个示例中,多个节点中的每一者确定计算模型的修改值(例如,使用训练数据和DNN模型来计算出的梯度值)。各节点量化修改值并将经量化的值传输给这些节点中的其他节点。每一节点中的更新模块根据接收到的经量化的值来修改计算模型。本文描述的各示例技术确定DNN的梯度矩阵,使用所存储的误差矩阵来量化梯度矩阵,更新所存储的误差矩阵,以及与其他节点交换经量化的梯度矩阵。
提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。例如术语“技术”可指代上述上下文和通篇文档中所准许的系统、方法、计算机可读指令、模块、算法、硬件逻辑或操作。
附图说明
参考附图来描述具体实施方式。在附图中,附图标记最左边的数字标识该附图标记首次出现的附图。不同附图中的相同参考标记指示相似或相同的项。
图1是描绘了用于实现在此描述的深神经网络的训练的示例环境的框图。
图2是示出用于实现使用算法来训练深神经网络的训练引擎的示例方案的框图。
图3是描绘了根据在此描述的各示例被配置成参与神经网络训练的示例计算设备的框图。
图4是示出训练深神经网络的示例过程的流程图。
图5是示出用于在各节点之间交换数据以训练深神经网络的示例过程的数据流图。
图6是示出用于在各节点之间交换数据以训练深神经网络的示例过程的流程图。
具体实施方式
概览
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911225718.X/2.html,转载请声明来源钻瓜专利网。