[发明专利]一种应用于语音识别系统的高性能置信度处理方法无效
申请号: | 200810110479.9 | 申请日: | 2008-06-05 |
公开(公告)号: | CN101447183A | 公开(公告)日: | 2009-06-03 |
发明(设计)人: | 颜永红;黎塔;潘接林;赵庆卫 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00 |
代理公司: | 北京法思腾知识产权代理有限公司 | 代理人: | 杨小蓉 |
地址: | 100190北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 语音 识别 系统 性能 置信 处理 方法 | ||
1、一种应用于语音识别系统的高性能置信度处理方法,其框架是基于一遍语音识别解码完成,在一遍语音识别过程中得到多个知识源,通过多个知识源融合计算置信度,具体包括以下步骤:
1)使用电话语音识别引擎对输入语音逐帧进行解码识别;
2)在步骤1)还没有解码完最后一帧语音前,在每一帧语音数据解码中,首先得到当前帧活跃状态的观察概率P(xt|sj),其中xt是当前帧语音信号的特征,sj是当前活跃状态集合D中的一个;同时将所有活跃状态的观察概率相加并保存到内存中;
3)解码完最后一帧数据,在得到识别结果前,获取输入语音的词图;
4)在步骤3)中得到词图后,随即得到识别结果,也即完成了语音数据的解码识别过程,得到识别结果同时还得到其相对应的音素序列,以及每个音素所对应的起止时间点和每个音素的识别似然概率;
5)完成步骤4)后,进行同步声学后验概率计算,即,通过前面保存的每一帧的活跃状态的观察概率之和,和每个音素的起止时间及其似然概率,求出相应的每个音素的后验概率;
6)完成步骤4)后,进行词图后验概率计算,即,通过前面得到的输入语音词图,根据词图上的信息相应也计算出每个音素的后验概率,通过算术平均得到对数域的词图后验概率;
7)将在步骤5)得到的同步声学后验概率和步骤6)得到的词图后验概率两个来自不同知识源的后验概率融合即求出最后的识别结果的融合后验概率;
8)将在步骤7)得到的融合后验概率通过定制的映射函数将后验概率映射为置信度分数,即为最后得到的识别结果的置信度。
2、如权利要求1所述的应用于语音识别系统的高性能置信度处理方法,其特征在于,所述步骤5)和步骤6)是相互独立的,两者没有先后次序。
3、如权利要求1所述的应用于语音识别系统的高性能置信度处理方法,其特征在于,所述步骤5)中的所述同步声学后验概率计算具体如下:
根据声学后验概率计算的框图,首先考虑每一帧的后验概率计算,对于每一帧语音输入信号xt,t=1,2....T,
其对于每一帧语音信号的后验概率为P(st|xt),定义为:
其中st是指识别结果中xt所属的状态,D为识别过程中当前时刻t活跃状态的集合,sj是活跃状态集合中的状态;
在解码识别过程中,同时保存了每一帧语音信号的后验概率P(st|xt)的分母部分
当识别过程结束,得到识别结果为R,其中包含N个音素,其音素序列为Ph0Ph1....PhN-1,而每个音素对应的语音帧序列x1x2......xT;
每个音素的对数域后验概率计算如下:
其中,计算每个音素的后验概率的分母部分是预先保存好的,而分子部分是识别结果中该个音素的似然概率;
得到上述每个音素的后验概率后,整个识别结果R的基于声学模型的后验概率Pacoustic(R)的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810110479.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种石斛种植方法
- 下一篇:一种石油超级活性粉剂