[发明专利]语音识别系统及其方法有效
申请号: | 00102409.4 | 申请日: | 2000-02-23 |
公开(公告)号: | CN1264892A | 公开(公告)日: | 2000-08-30 |
发明(设计)人: | 戴维·E·彻瓦利尔;亨利·L·卡泽基 | 申请(专利权)人: | 摩托罗拉公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 张维 |
地址: | 美国伊*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 系统 及其 方法 | ||
本发明涉及语音识别。
依赖于扬声器的语音识别系统利用特征抽取算法在输入语音的帧上以及代表每帧的输出特征矢量上执行信号处理。这种处理在帧频进行。该帧频一般在10至30ms之间,在此将以20ms的持续时间为例。已经知道有许多不同的特征在语音识别系统中使用。
一般来说,训练算法利用从字或短语的一个或多个表达的抽样语音中抽取的特征来生成该词或短语的模式参数。然后将该模式存储在模式存储器中。这些模式后来在语音识别期间使用。识别系统将未知表达的特征与存储的模式参数相比较,以确定最佳匹配。然后将最佳匹配模式作为该识别系统的结果输出。
已经知道利用基于识别系统的隐含马尔柯夫模式(HMM)进行这种处理。HMM识别系统将表达的各个帧分配给HMM的各个状态。选择产生最大概率或比数的状态至帧的分配作为最佳匹配。
许多语音识别系统并不能区分有效表达与无效表达。相反地,这些系统选择其中一个最接近匹配的存储模式。有些系统利用力图探测及拒绝无效表达的词表范围外的(Out-of-Vocabulary)拒绝算法。由于词表的动态大小及未知的构成,在小的词表中,依赖于扬声器的语音识别系统是一个难题。这些算法在噪声条件下退化,以至于噪声条件下的错误拒绝的数目增加。
在实际中,词表范围外的拒绝算法必须平衡由正确拒绝无效表达及错误拒绝有效表达所测量出来的性能。错误拒绝率可以在用户满意中起到至关重要的作用,因为频繁的错误拒绝,与不正确的匹配一样,将引起失败。因而,词表范围外的拒绝起到了满足用户识别期望的平衡作用。
相应地,已经知道基于噪声电平计算拒绝门限。例如,已经知道在探测第一个语音帧之前测量噪声电平。该门限是从测量中计算出来。如果这个字的参考模式与输入语音模式之间的差值大于拒绝门限,则该输入被拒绝。因而这种系统依赖于随机噪声输入电平。不能依赖这种测量来产生有意义的拒绝判决。
因此,在语音识别系统中需要一种改进的方法为拒绝表达提供一种依据。
图1为以方框图形式说明无线通信装置的电路示意图;
图2为以方框图形式说明图1装置中语音识别系统的电路示意图;
图3为带有两个节点的基础网络的示意图;
图4为用于说明训练的流程图;
图5给出了窗口及其中的相应帧;
图6为说明识别的高阶流程图;
图7为说明识别期间训练的流程图;
图8为说明补偿函数的示意图。
本发明具有在训练及识别期间依赖于背景噪声电平的可变拒绝精度。在训练期间,噪声特征生成于训练表达中。根据噪声特征更新增量噪声参考平均值。这些统计量存储在存储器中,以使它们可为识别算法所利用。当在免提模式中训练时,因为背景噪声的较高电平,噪声统计量并不被更新。如果没有可以利用的噪声统计量,则识别算法缺省为最小精度。
在识别期间,输入噪声能量特征与参考噪声统计量相比较,并且计算出噪声比。然后根据该噪声比选择词表范围外的拒绝算法的精度。本发明在出现噪声时有助于防止有效表达的错误拒绝。
在两级定位算法识别搜索中,精度参数为字入口补偿(penalty)。随着零平均值的单个状态无用信息模式与语音标记模式互相平行,实现了最佳路径的置信测量。
图1中公开了一种可以有效利用本发明的装置100。在这里为了说明起见,装置100被描述为手提无线电话,但是也可以为计算机,个人数据助理,或者是任何可以有利地采用语音识别的装置,尤其是可以利用对语音识别系统有效的存储器的装置。所述的无线电话包括耦合至天线106的发射机102及接收机104。发射成功机102及接收机104耦合至呼叫处理器108,该处理器执行呼叫处理功能。呼叫处理器108可以利用数字信号处理器(DSP)、微处理器、微控制器、可编程逻辑部件、两个或多个上述装置的结合或者任何其他合适的数字电路来实现。
呼叫处理器耦合至存储器110。存储器110包括RAM,电可擦可编程只读存储器(EEPROM),只读存储器(ROM),快闪ROM,或类似装置,或两个或多个这些存储器种类的组合。存储器110支持呼叫处理器108的操作,所述操作包括语音识别操作,并且必须包括电可变存储器以支持状态转移路径存储器。ROM可以被用来存储装置运行程序。
声频电路112提供从话筒114向呼叫处理器108的数字化信号。响应于来自呼叫处理器的数字信号声频电路112驱动扬声器116。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于摩托罗拉公司,未经摩托罗拉公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/00102409.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有分配组件的容器
- 下一篇:制鞋方法和用此方法制得的鞋