[发明专利]深层神经网络的辨别预训练有效

申请号：	201210488501.X	申请日：	2012-11-26
公开（公告）号：	CN103049792A	公开（公告）日：	2013-04-17
发明（设计）人：	弗兰克塞得;邓丽;俞栋;李钢	申请（专利权）人：	微软公司
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	康建峰;吴琼
地址：	美国华***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	深层神经网络辨别训练
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种用于深层神经网络的辨别预训练的方法和系统。

背景技术

已知深层神经网络（DNN，deep neural network）是有力的辨别建模工具，并且其能够用于各种目的。例如，能够组合DNN与隐式马尔可夫模型（HMM，hidden Markov model）来表征作为语音的发音单位的上下文相关（CD，context-dependent）的音素。作为结果产生的混合CD-DNN-HMM利用DNN的暂时地（temporally）局部化的辨别建模能力和HMM的连续建模能力的优点。CD-DNN-HMM能够用于语音识别系统、手写识别系统、以及包括姿势识别系统在内的人类行为识别/检测系统等许多其它系统。

在构建这样的CD-DNN-HMM中的关键过程之一是DNN的训练。这个训练典型地通过首先初始化权重来进行，并且作为“预训练”过程已知。

发明内容

通常采用此处描述的辨别预训练技术实施例来预训练深层神经网络（DNN）的隐层。此处所描述的辨别预训练技术实施例具有如下优点：使得DNN层权重接近良好的局部最优，同时仍使其留在具有高梯度的范围内，从而能够在训练的后续阶段对其进行有效地微调。

在一个示例性辨别预训练技术实施例中，通过首先训练单隐层神经网络（NN）预训练DNN，所述单层神经网络具有：输入层，训练数据被输入到所述输入层中；输出层，从所述输出层生成输出；以及第一隐层，所述第一隐层以随机初始化的权重与所述输入层和所述输出层相互连接。该训练涉及访问训练数据条目集，训练数据条目集中的每个训练数据条目具有分配到其上的对应标签。之后每个数据条目被一个接一个地输入到单隐层神经网络的输入层中，直到全部数据条目已经被输入至少一次。应该注意的是，在输入每个数据条目之后，经由误差反向传播（BP，back-propagation）过程设置与第一隐层关联的权重，以使得从输出层生成的输出匹配与训练数据条目关联的标签。这产生了初始的NN。

一旦已经训练了单隐层NN，则丢弃当前输出层并且添加以随机初始化的权重与最近一个之前训练的隐层和新输出层相互连接的新的隐层，以产生新的多隐层DNN。之后如下训练最近产生的新的多隐层DNN。将训练集的每个数据条目一个接一个地输入到最近产生的新的多隐层DNN的输入层，直到全部数据条目已经被输入至少一次。应该注意的是，在输入每个数据条目之后，经由BP设置与新的隐层和每个之前训练的隐层关联的权重，以使得从输出层生成的输出匹配与训练数据条目关联的标签。这产生了比之前的DNN多一层的更深的神经网络。

之后以相同的方式添加和训练另外的新的隐层，直到已经添加了规定数量的隐层。之后将作为结果的最近产生的修正的多层DNN指定为预训练的DNN。

应当注意的是，提供本概要来以简单的形式引入概念的选择，下面在具体实施方式中进一步描述了这些概念。该概要不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用来帮助判定所要求保护的主题的范围。

附图说明

结合下面的描述、所附的权利要求以及附图，将更好理解本公开的具体特征、方面和优点，在附图中:

图1为用来实施此处所描述的辨别预训练技术实施例的示例性计算程序体系结构。

图2为概述了用于预训练深层神经网络（DNN）的预训练技术处理的一种实施方式的流程图。

图3为概述了用于执行微调预训练好的DNN的多迭代处理的迭代的处理的一种实施方式的流程图。

图4为描绘了构成用于实施此处所描述的辨别预训练技术实施例的示例性系统的通用计算装置的图。

具体实施方式

在辨别预训练技术实施例的下面的描述中参考了附图，所述附图形成说明书的一部分，其中以图示的方式示出了可以实践本技术的具体实施例。应该理解的是，也可使用其它实施例并且可以做出结构改变而不脱离本技术的范围。

1.0深层神经网络的辨别预训练和微调

通常采用此处所描述的辨别预训练技术实施例来预训练深层神经网络（DNN）的隐层。这产生了预训练的DNN，所述预训练的DNN能够被微调以产生完全训练的DNN。为了这个描述的目的，将完成的DNN定义为具有多于一个隐层的神经网络。此外，术语“预训练”指的是获得经受进一步修改的全部层中的DNN权重的过程，所述进一步修改基于贯穿DNN中的全部层的纯辨别学习过程。一个这样的辨别学习过程是上述微调，所述微调要求贯穿从顶层到底层的全部DNN层的BP。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于微软公司，未经微软公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210488501.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]深层神经网络的辨别预训练有效

专利文献下载