[发明专利]神经网络语言模型的训练方法、装置以及语音识别方法在审
申请号: | 201310349690.7 | 申请日: | 2013-08-12 |
公开(公告)号: | CN104376842A | 公开(公告)日: | 2015-02-25 |
发明(设计)人: | 刘加;史永哲;张卫强;何亮;王力劭;王燕强 | 申请(专利权)人: | 清华大学;深圳市车音网科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 语言 模型 训练 方法 装置 以及 语音 识别 | ||
技术领域
本发明涉及语音识别技术,尤其涉及一种神经网络语言模型的训练方法、装置以及语音识别方法。
背景技术
语音识别是指使用计算机将一段语音信号转换成对应文字的过程,语音识别的结果依赖于在语音识别中使用的语言模型,其中,语言模型是对序列建模,在给定历史序列的情况下准确地预测下一个词,或者给定带有错误的句子候选中,挑选出最符合人类语言的候选。理想的语言模型能够保证语音识别系统输出合理的识别假设。
在神经网络语言模型中,每一个词都被映射成为高维矢量,语法和语义等相近的词在高维空间具有比较好的聚集性。神经网络语言模型在语音识别、机器翻译等领域中已经取得非常好的效果。
神经网络语言模型最大的缺点是计算复杂度过高,该模型的计算负担主要来源于输出层。对于神经网络语言模型,给定历史上文每进行一次分数预测,都需要在输出层经过softmax函数归一化成为概率,这一过程使得神经网络语言模型计算复杂度高,从而直接限制其广泛应用。
现有技术通常采用词语类聚或者树状结构等方法,根据人为经验对词典进行结构化处理,以减小神经网络语言模型输出层的计算复杂度。然而,由于引入了人为因素,现有技术采用的方法会对神经网络语言模型的性能造成影响,使得语音识别质量(识别率)降低。
发明内容
本发明的实施例提供一种神经网络语言模型的训练方法、装置以及语音识别方法,能够在保证语音识别质量的前提下,提高语音识别速度。
为达到上述目的,本发明的实施例采用如下技术方案:
一种神经网络语言模型的训练方法,包括:对待训练的神经网络语言模型的参数进行初始化,获取初始化后的参数;根据给定的训练文本句子和所述初始化后的参数,获取输出层的状态矢量;根据所述输出层的状态矢量和初始化后的参数,获取输出层的归一化因子;根据所述归一化因子确定所述训练文本句子中待识别词语的预测概率;采用所述归一化因子对目标代价函数进行修正,获取修正后的目标代价函数,其中,所述目标代价函数根据所述预测概率获得;根据所述修正后的目标代价函数对所述初始化后的参数进行更新,获取所述待训练的神经网络语言模型训练后的目标参数,其中,目标参数使得训练后的神经网络语言模型中归一化因子为常数。
一种神经网络语言模型的训练装置,包括:
初始化模块,对待训练的神经网络语言模型的参数进行初始化,获取初始化后的参数;
第一获取模块,用于根据给定的训练文本句子和所述初始化模块获取的初始化后的参数,获取输出层的状态矢量;
第二获取模块,根据所述第一获取模块获取的输出层的状态矢量和初始化模块获取的参数,获取输出层的归一化因子;
第三获取模块,用于根据所述第二获取模块获取的归一化因子确定所述训练文本句子中待识别词语的预测概率;
修正模块,用于根据所述第三获取模块确定的预测概率获取目标代价函数,采用所述第二获取模块获取的归一化因子对目标代价函数进行修正,获取修正后的目标代价函数;
更新模块,用于根据所述修正模块修正后的目标代价函数对所述初始化模块获取的参数进行更新,获取所述待训练的神经网络语言模型训练后的目标参数,其中,目标参数使得训练后的神经网络语言模型中归一化因子为常数。
一种语音识别方法,包括:采用声学模型进行声学观测匹配的步骤,以及采用神经网络语言模型进行约束搜索空间的步骤;其中,所述神经网络语言模型为采用本发明提供的神经网络语言模型的训练方法获取的语言模型。
本发明实施例提供的神经网络语言模型的训练方法、装置以及语音识别方法,采用归一化因子对目标代价函数进行修正,根据修正后的目标代价函数训练神经网络语言模型,获得目标参数,该目标参数能够使训练后的神经网络语言模型中归一化因子为常数,从而降低了神经网络语言模型计算归一化因子的复杂度,提高了神经网络语言模型的计算速度,进而提高了采用该语言模型进行语音识别的速度,相较于现有技术提供的技术方案,模型的计算复杂度更低,并且,由于本发明实施例采用归一化因子对目标代价函数进行修正,解决了现有技术通过人为经验对词典进行结构化处理,造成语音识别质量降低的问题,经过本发明实施例提供的神经网络语言模型的训练方法、装置训练获得的语言模型,与现有的神经网络语言模型的性能基本相同,在保障原有语言模型性能的基础上,降低了计算复杂度,提高了计算速度,进而提高了识别速率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;深圳市车音网科技有限公司,未经清华大学;深圳市车音网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310349690.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种半导体器件失效分析的方法
- 下一篇:一种拍打式架子鼓