[发明专利]用于语音识别的深度结构的全序列训练有效
申请号: | 201110299678.0 | 申请日: | 2011-09-20 |
公开(公告)号: | CN102436811A | 公开(公告)日: | 2012-05-02 |
发明(设计)人: | D·俞;L·邓;A·S·A·穆罕默德 | 申请(专利权)人: | 微软公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 蔡悦 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 识别 深度 结构 序列 训练 | ||
技术领域
本发明涉及语言识别技术,尤其涉及深度结构化模型中的学习技术。
背景技术
语音识别已经是大量研究和商业开发的课题。例如,语音识别系统已经并入到移动电话、台式计算机、汽车等等中以便提供对用户所提供的语音输入的具体响应。例如,在配备有语音识别技术的移动电话中,用户可以讲出移动电话中所列出的联系人的姓名,并且移动电话可以发起对该联系人的呼叫。
此外,许多公司当前正在使用语音识别技术来在标识公司雇员以及标识产品或服务的问题等等方面帮助顾客。
部分地被利用人类语音生成和感知系统中某些类似属性的要求所激励,对ASR的研究已经探究了分层的体系结构来执行语音识别。在这些研究中,对模型参数的学习已经是最显著且最困难的问题之一。与ASR研究中的发展并行,从神经网络研究中学习各方法所取得的当前进展已经点燃了对探查深度结构化模型的兴趣。一个具体的进步是深度信任网络(DBN)的有效学习技术的开发,该深度信任网络是具有许多隐藏层的密集连接的、直接的信任网络。一般而言,DBN可被认为是具有多层隐藏单元和至少一层可见单元的高度复杂的非线性特征提取器,其中隐藏单元的每一层学习表示在原始输入数据中捕捉更高阶的相关的特征。
尽管DBN通常比其较浅的对应物有更高的建模能力,但在DBN中学习是困难的,部分地因为反向传播算法常常由于显著增加了的陷入局部最优的机会而不有效地执行。
因此,针对DBN的改进的学习技术是期望的。
发明内容
以下是在本文详细描述的主题的简要概述。本发明内容不旨在是关于权利要求的范围的限制。
在此描述了与自动语音识别(ASR)有关的各种技术。更具体地,本文描述了与利用深度结构化模型来执行ASR有关的各种技术。更具体地,本文描述了与执行对用于语音识别的深度结构化模型的全序列训练有关的各种技术。
可结合ASR来使用的示例性深度结构化模型是深度信任网络(DBN)。可对DBN采取预训练过程,其中这一预训练过程可与学习DBN中的变量(可见的和隐藏的)的各层之间的初始权重有关。在一个示例中,这一预训练过程可通过将DBN中每一对层作为受限玻尔兹曼机(RBM)来对待,来贪婪地学习DBN的每一层的初始权重。
在DBN经受预训练之后,可通过利用在序列级别处为DBN所设计的区别训练准则来对DBN权重、转移参数、以及语言模型(LM)分数联合地进行基本上优化。更具体地,语音识别可被称为顺序的或全序列学习问题,并且已知在序列级别处的区别信息对改进识别的准确性有贡献。在先前方法中,仅利用帧级信息来训练DBN权重,并且转移参数和LM分数是分开获得的。
在阅读并理解了附图和描述后,可以明白其他方面。
附图说明
图1是通过利用深度信任网络(DBN)来促进执行自动语音识别(ASR)的示例性系统的功能框图。
图2是促进初始化DBN的权重的示例系统的功能框图。
图3是促进联合地基本上优化DBN权重、转移参数和语言模型(LM)分数的示例性系统的功能框图。
图4是示例性DBN。
图5是示出用于联合地学习DBN权重、转移参数和LM分析的示例性方法的流程图。
图6是示出用于联合地学习DBN权重、转移参数和LM分析的示例性方法的流程图。
图7示出了示例性的深度隐藏条件随机场。
图8是示例性计算系统。
具体实施方式
现在将参考附图来描述关于自动语音识别(ASR)系统的各种技术,其中贯穿全文,相同的附图标记表示相同的元素。另外,本文出于解释的目的示出并描述了各示例系统的若干功能框图;然而可以理解,被描述为由特定系统组件执行的功能可以由多个组件来执行。类似地,例如可以将一组件配置为执行被描述为由多个组件执行的功能,并且在此所述的方法中的一些步骤可以被省略、重排序、或者组合。
参考图1,示出了促进执行ASR的示例性系统100。系统100包括接收样本104的语音识别系统102。该样本可以是来自个体的在特定时间量内所讲出的词语(例如其通过利用麦克风被捕捉)。样本104可以通过利用模数转换器来被数字化,并且可以在期望时受到某种形式的归一化。尽管在此所提供的示例指示:样本104是讲出的发言(utterance),但是应当理解,系统100可以被配置为执行在线手写识别和/或实时姿势识别。因此,样本104可以是在线手写样本或者描述诸如人类之类的对象的运动的视频信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110299678.0/2.html,转载请声明来源钻瓜专利网。