[发明专利]用于语音识别的神经网络的训练方法无效
申请号: | 95193415.5 | 申请日: | 1995-04-25 |
公开(公告)号: | CN1151218A | 公开(公告)日: | 1997-06-04 |
发明(设计)人: | 沙-平·托马斯·王 | 申请(专利权)人: | 摩托罗拉公司 |
主分类号: | G06F15/18 | 分类号: | G06F15/18 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 于静 |
地址: | 美国伊*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 识别 神经网络 训练 方法 | ||
本发明一般涉及语音识别装置,具体说来涉及用于可以识别与讲话人无关的孤立语词的语音识别系统中的神经网络的训练方法。
多年来科学家一直试图找到一种可以简化人机界面的办法。诸如键盘、鼠标、触摸屏及笔这些输入设备是用来实现人/机界面最为常用的工具。但是人机间更为简单和自然的界面可能是人的语音。一种能够自动识别语音的装置可以提供这样一种界面。
自动语音识别装置的潜在应用包括利用话音命令的数据库查询技术、在制造过程中利用话音输入进行质量控制、使驾驶员在拨号时可集中精神于路面情况的话音拨号式蜂窝电话以及伤残人使用的话音操纵的假肢装置。
令人遗憾的是自动语音识别不是一项可以轻易完成的课题。一个原因是各个人的语音之间的变化很大。比如同一个语词由几个人讲出时其声音会由于口音、语速、姓别或年龄的差异而相差甚远。除了讲话人的变化,协同发音效应、讲话的模式(喊叫/低语)及背景噪声都会给语音识别装置造成巨大的问题。
自60年代未到现在,在自动语音识别方面已引进了各种各样的方法。一些方法立足于相应的试探策略的扩展知识,另一些方法则基于语音数据库和训练方法。后面这一类方法包括动态时间偏差法(DTW)和隐藏马尔可夫模型法(HMM)。对这两种方法,以及时间延迟神经网络(TDNN),将在下面讨论。
动态时间偏差法是一种利用优化原理减小一个未知的发音语词与一个所存储的已知模板语词之间的误差的技术。已报告的数据表明这项DTW技术很有效并能进行良好的识别。然而,DTW技术的计算强度很大。所以要把这种DTW技术应用于现实世界中是不实际的。
隐藏马尔可夫模型法不是直接将一个未知的发音语词与一已知语词的模板进行比较,而是利用各已知语词的随机模型并对各模型产生该未知语词的概率进行比较。当一个未知语词讲出时,HMM技术将检查该语词的序列(或状态)并找出能提供最佳匹配的模型。HMM技术在很多商业应用中运用顺利;但是,此项技术有很多缺点。这些缺点包括不能区分声音类似的语词、对噪声敏感和计算强度大。
最近,神经网络被用来解决一些高度非结构性并且不然就无法解决的问题,如语音识别。时间延迟神经网络是一种采用有限的神经元连系处理语言时间效应的神经网络。就有限的语词识别而言,TDNN的表现略优于HMM方法。但TDNN却受困于某些严重的缺点。
首先,TDNN的训练时间很长,大约为数星期之久。其次,TDNN的训练算法经常收敛为局部极小,非最优解。最优解应是全局极小。
总之,已知的现有自动语音识别方法的缺点(如算法所需计算工作量不实际,对讲话人的改变和背景噪声的容许度有限,训练时间过长等等)严重地限制了语音识别装置在很多有可能应用的领域中的接纳和推广。因此急需一种高度精确、对背景噪声免疫、无需反复训练或复杂计算、可产生全局极小并且对讲话人的差异不敏感的自动语音识别系统。
因此,本发明的一个优点就是可提供一种用于对讲话人的差异及背景噪声不敏感的语音识别系统中的神经网络训练法。
本发明的另一个优点则是可提供一种训练时间不需要重复迭代的语音识别装置的训练法。
本发明的再一个优点是可提供一种对每一给定的训练矢量集可生成全局极小的语音识别装置的训练法。
根据本发明优选实施例中通过对用于语音识别系统中的多个神经网络(每一个神经网络又由多个神经元构成)提供一种训练法取得了上述以及其他优点;该方法产生了多个训练实例,每个训练实例包括有一个输入部分和一个输出部分,该方法由下列步骤构成:(a)接受一个讲出的例词;(b)对该讲出的语词进行模数转换,这种转换会产生一个数字化语词;(c)对该数字语词进行倒频谱分析(cepstral analysis),分析结果产生一个数据帧序列;(d)由该数据帧序列生成多个数据块;(e)从多个数据块中选择一个并使多个训练实例中的一个的输入部分等于所选择的数据块;(f)从多个神经网络中选择一个并确定所选择的神经网络是否可识别所选择的数据块;如果可以,则将该一训练实例的输出部分设置为1,如果不可以,则将该一训练实例的输出部分设置为0;(g)将该一训练实例存储;(h)确定多个数据块中是否有另一个数据块;如果有,返回到步骤(e);如果没有,结束本方法。
在所附的权利要求书中对本发明已有详细叙述。但是,结合附图并参考下面的详细介绍本发明的其他一些特点将更加清楚并可对之有一个更好的了解,其中
图1是一个语音识别系统的一个上下文框图;
图2是利用本发明的一个语音识别系统的概念图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于摩托罗拉公司,未经摩托罗拉公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/95193415.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有多个同轴旋转或平行线性移动头部或工具的家用器具
- 下一篇:防皱平皱蜜