[发明专利]对噪声相对健全的语音识别系统和方法无效
申请号: | 00802564.9 | 申请日: | 2000-01-03 |
公开(公告)号: | CN1335978A | 公开(公告)日: | 2002-02-13 |
发明(设计)人: | 阿多姆·艾瑞尔 | 申请(专利权)人: | D.S.P.C.科技有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/12 |
代理公司: | 北京康信知识产权代理有限责任公司 | 代理人: | 吴磊 |
地址: | 以色列吉威*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 噪声 相对 健全 语音 识别 系统 方法 | ||
发明领域
本发明一般涉及到语音识别,特别涉及到在噪声环境中的特定说话人识别技术。
发明背景
噪声环境中的语音识别是一个经长期研究仍有待解决的任务。这种任务的特征是以下参数:
1.识别是因人而异的,由用户在一个指定的“训练对话”中讲话的说话语调产生参考模板;
2.希望将训练语调的数量减少到最小数量(1-3),在现有技术中,这样能使动态时间弯曲(DTW)匹配算法比隐藏马尔可夫模型(HMM)算法更加有效:
3.要识别的短语是单字;
4.训练阶段是相对低噪声的,而识别中需要应付附加的环境噪声;
5.在用户按下讲话(PTT)按钮开始讲话的瞬时之前,环境噪声对于系统是未知的;
6.环境噪声同时具有稳态和非稳态成分;以及
7.系统只有有限的快速存取存储器,不可能以实时和字识别的方式针对所有参考模板运行DTW匹配算法。因而就需要两阶段处理,第一阶段是声音活动检测器(VAD),而第二阶段是一个DTW匹配器。
在识别阶段由噪声带来的主要困难有两个:
1.训练和识别阶段之间在声学上失配;以及
2.在识别阶段中,VAD估算的字终结点不准确。
这两个问题会导致识别误差。
在现有技术中有许多针对声学失配问题的技术。值得一提的是Jean-ClaudeJunqua和Jean-Paul Haton的Robustness in Automatic SpeechRecognition,Kluwer Academic Publishers,1996。Erell等人的美国专利US5,778,342提供了一种技术。
现有技术很少涉及到终结点不准确的问题。一种解决方案是采取不严格终结点DTW的形式,可参见下文:
Lawrence Rabiner和Biing-Hwang Juang的Fundamentals of SpeechRecognition,Prentice Hall,1993;
Ilan D.Shallom,Raziel Haimi-Cohen和Tal Golan的“Dynamic TimeWarping with Boundaries Constraint Relaxation”,IEEE Conference inIsrael,1989,pagesl-4;以及
Nakadai等人的美国专利US5,732,394。
在普通DTW中,从讲话开始到终结点的频谱参数序列被当作输入语言模式来存储。DTW运算用未知的语言模式与每个参考模板相匹配,并且计算二者之间的距离值。这是用图1A的曲线来执行的,可作为简要的参考。输入语言模式的各帧被放在X轴上,而现行参考模式的各帧被放在Y轴上。通过曲线做一条从左下角起始到右上角终结的路径,将这些角定义为测试和参考语调的终结点。
然而,在参照图1B所示的不严格终结点解决方案中,DTW路径不仅限于起始或终结于测试和参考语调的严格的终结点。而是这一路径可以在这些角的一个给定范围(delta和Qmax_delta)内起始和终结。这种方法真正消除了终结点不准确造成的一些误差。
然而,不严格终结点解决方案存在几个缺点。作为简要参考的图2表示了缺点之一:如果有两个词汇字,且一个字和第二个字的一部分相似(用图中标有“匹配”的一段来表示),识别系统就可能错误地指示第一(较长)字的语调和第二(较短)字的参考模板匹配。
不严格终结点方法的其他缺点有别于具体的方法。例如,在Shallom的文章中,需要用路径长度对DTW栅格也就是DTW累计得分上的每一点进行规范化,因为这种不严格的起始点允许有多个不同长度的路径。长度规范化会带来标准DTW中不存在的极大的计算量。另外,由于规范化,用于最佳匹配路径的标准DTW解决方案实际上并不是最佳的。例如在美国专利US5,732,394中计算量就很大,因为对每一对测试和参考模式而不只一个都要执行若干次DTW匹配运算。
在以下文章中给出了对不严格终结点问题的其他解决方案:
Tom Claes和Dirk Van Compemolle的“SNR-Normalization for RobustSpeech Recognition”,ICASSP96,1996,pages331-334;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于D.S.P.C.科技有限公司,未经D.S.P.C.科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/00802564.9/2.html,转载请声明来源钻瓜专利网。