[发明专利]一种应用于语音识别系统的高性能置信度处理方法无效

申请号：	200810110479.9	申请日：	2008-06-05
公开（公告）号：	CN101447183A	公开（公告）日：	2009-06-03
发明（设计）人：	颜永红;黎塔;潘接林;赵庆卫	申请（专利权）人：	中国科学院声学研究所;北京中科信利技术有限公司
主分类号：	G10L15/00	分类号：	G10L15/00
代理公司：	北京法思腾知识产权代理有限公司	代理人：	杨小蓉
地址：	100190北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种应用于语音识别系统性能置信处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种置信度处理方法。更具体地说，本发明涉及一种应用于语音识别系统的高性能置信度处理方法。

背景技术

随着语音识别技术在不同领域被越来越多地应用，语音识别系统的识别率和稳健性变得越来越重要，用户对于所使用的语音识别系统识别结果的可靠程度越来越关心。在自然条件下使用语音识别系统，不同于理想环境下的使用，这时语音识别系统的性能会有很大的降低。而且对于真实的口语，在语音中会掺杂很多非语音，譬如非正常停顿、咳嗽声以及其他的环境噪声，这都给传统的语音识别系统达到原有的识别性能造成了困难。特别对于电话语音识别系统，用户的期望是尽可能地拒绝错误的语音同时对于集外词表能够准确拒识，置信度的计算是解决这些困难的一种很好的途径。

置信度评价方法可以对语音识别系统的识别结果进行假设检验，通过试验设定的阈值对识别结果的可靠性进行评价，定位结果中的错误，从而提高识别系统的识别率和稳健性。目前已经有许多处理置信度的方法，但由于实际应用的语音识别系统一方面要求实时性比较高，另一方面也希望置信度的分数比较可靠，目前的置信度处理方法很难同时满足这两个要求。在已有专利CN02148686.7中提出的置信度处理方法，它们虽然比以前的方法在速度和精度上都有提高，但是它的主要缺陷有其一是两次利用声学模型对输入语音进行解码，第一次利用声学模型目的是对原始语音进行单遍解码得到目标结果，第二次利用声学模型目的是对识别的目标结果再次在原始语音上进行强制对齐，最后得到相应的置信度分数，虽然其在处理方法，存储结构上有很大的优化提高速度，但其两遍解码的框架限制了它进一步提高其系统的速度；其二，只考虑了声学模型的知识源计算置信度，单一的知识源计算出置信度结果的可靠性有限。

发明内容

本发明要解决的技术问题是提供一种应用于语音识别系统的高性能置信度处理方法，本发明的目的在于通过新的置信度处理方法，一方面提高置信度处理的速度，降低置信度的计算在整个语音识别系统中所占的时间，另一方面提高置信度结果的可靠性，从而进一步提高语音识别系统的实时性(即速度)和稳健性。

为了达到上述目的，本发明提供了一种应用于语音识别系统的高性能置信度处理方法，其框架是基于一遍语音识别解码完成，在一遍语音识别过程中得到的多个知识源，通过多个知识源融合计算置信度，具体包括以下步骤：

1)使用电话语音识别引擎对输入语音逐帧进行解码识别；

2)在步骤1)还没有解码完最后一帧语音前，在每一帧语音数据解码中，首先得到当前帧活跃状态的观察概率P(x_t|s_j)，其中x_t是当前帧语音信号的特征，s_j是当前活跃状态集合D中的一个；同时将所有活跃状态的观察概率相加并保存到内存中；

3)解码完最后一帧数据，在得到识别结果前，获取输入语音的词图(lattice)；

4)在步骤3)中得到词图后，随即可以得到识别结果，也即完成了语音数据的解码识别过程，得到识别结果同时还可以得到其相对应的音素(phone)序列，以及每个音素(phone)所对应的起止时间点和每个音素(phone)的识别似然概率；

5)完成步骤4)后，进行同步声学后验概率计算，即，通过前面保存的每一帧的活跃状态的观察概率之和，和每个音素(phone)的起止时间及其似然概率，求出相应的每个音素(phone)的后验概率；

6)完成步骤4)后，进行词图(lattice)后验概率计算，即，通过前面得到的输入语音词图(lattice)，根据词图(lattice)上的信息相应也可以计算出每个音素(phone)的后验概率，通过算术平均得到对数域的词图(lattice)后验概率；

7)将在步骤5)得到的同步声学后验概率和步骤6)得到的词图(lattice)后验概率两个来自不同知识源的后验概率融合即求出最后的识别结果的融合后验概率；

8)将在步骤7)得到的融合后验概率通过定制的映射函数将后验概率映射为置信度分数，即为最后得到的识别结果的置信度。

另外，本发明的应用于语音识别系统的高性能置信度处理方法中的所述步骤5)和步骤6)是相互独立的，两者没有先后次序。

本发明的优点在于：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司，未经中国科学院声学研究所;北京中科信利技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810110479.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种应用于语音识别系统的高性能置信度处理方法无效

专利文献下载