[发明专利]一种基于音素混淆网络的音素后验概率计算方法无效

申请号：	201010164874.2	申请日：	2010-04-30
公开（公告）号：	CN101887725A	公开（公告）日：	2010-11-17
发明（设计）人：	葛凤培;颜永红	申请（专利权）人：	中国科学院声学研究所
主分类号：	G10L19/00	分类号：	G10L19/00;G10L15/02
代理公司：	北京法思腾知识产权代理有限公司 11318	代理人：	杨小蓉;高宇
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于音素混淆网络概率计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于发音质量评估技术领域，具体地说，本发明涉及一种用于发音质量评估系统中的置信度计算方法。

背景技术

在自然条件下使用发音质量评估系统，不同于在理想实验环境下的使用，这时发音质量评估系统的性能会有很大的降低。而且对于真实的口语，在语音中会参杂很多非语音，譬如非正常停顿、咳嗽声以及很多的环境噪声，这都给发音质量评估系统达到原有的评估精度造成了困难。另外，用户说的词汇如果不在发音质量评估系统预先设定的领域范围内，也较容易造成评估误差。总之，对于商业化的发音质量评估系统，用户的期望是尽可能的准确评估发音质量，与此同时还要求比较快的评估速度，而置信度评价方法正是解决这些困难的一种关键性措施。

置信度评价方法可以对发音质量评估系统的目标发音在特定的时间间隔内进行假设检验，通过预先训练的阈值对待评估发音段的准确性进行评价，从而提高发音质量评估系统的准确率和稳健性。

目前，把目标文本的后验概率(即传统Goodness of Pronunciation算法)作为计算发音评估的置信度是一种应用较广的做法。图1为现有的置信度计算方法的示意图。输入语音首先通过全音节网络识别器进行一遍解码，在这个过程中，可以获得对应于输入语音的音素分割点。然后在每个音素段内与目标音素强制对齐，从而获得目标文本对应的声学似然值。再利用全音节网络识别结果中最优候选路径上的声学似然值，最终计算出目标文本在待评估语音下的音素后验概率作为置信度得分。该算法是对理论上的音素后验概率算法的简化。首先，为了减少分母的计算量，它假设求和算法的结果近似等于求最大值算法的结果。当用户由一个音素错发成音素集中另外一个音素时，这种假设可以很好的近似于真实后验概率的值；但当用户的发音不同于音素集中任何一个标准发音时，最大值就与求和相差很多了。此时，求和算法近似等于求最大值算法的假设会严重降低置信度的计算精度。其次，为使后验概率值能在不同语音段间比较，GOP算法还采用了在后验概率基础上的段长规整策略。但是理论上，声学似然值是状态转移概率与语音观察概率随语音帧数的累积量，时间长度直接影响声学似然值的大小，而又间接将这种影响传递到音素后验概率上，所以对声学似然值作时间规整才更为合理。以上两个缺陷导致传统的GOP算法的计算精度很低，特别是用户为第二语言学习者时，它的性能变得难以接受，从而很不利于发音质量评估系统的在线使用和实际推广。

发明内容

本发明的目的是克服现有技术的不足，综合考虑计算速度和稳健性，提供一种用于发音质量评估系统中的基于音素混淆网络的音素后验概率算法，该方法是一种利用音素混淆网络来计算音素后验概率并将其作为发音质量评估置信度的算法。

为实现上述发明目的，本发明提供的发音质量评估系统中的基于音素混淆网络的音素后验概率算法，包括如下步骤：

1)将待识别语音输入语音识别系统中；

2)对输入语音进行预处理，该预处理中包括分帧；

3)采用感知加权线性预测参数(PLP)特征提取方法或者美尔域倒谱系数(MFCC)特征提取方法提取语音特征；

4)利用全音节循环网络状态图和声学模型，对特征向量序列进行解码，得到最优路径，记录最优路径上的各音素分割点信息；

5)根据步骤4)获得的最优路径识别结果的上下文以及目标学习文本，在各个音素段内搭建其对应的音素混淆网络；

6)按照步骤4)中得到的音素分割点和步骤5)中搭建的音素混淆网络，根据声学模型和语音段对应的特征向量序列，在混淆网络的每条路径上将模型状态和语音特征做强制对齐，获得该语音段在该路径上的声学似然值；

7)对步骤6)获得的声学似然值进行段长规整，即

p_nor((x₁，...，x_t)|(s₁，...，s_t))＝p((x₁，...，x_t)|(s₁，..，s_t))^1/T，

其中，p((x₁，...，x_t)|(s₁，...，s_t))是规整前的声学似然值，p_nor((x₁，...，x_t)|(s₁，...，s_t))是规整后的声学似然值，T是该音素段的时间长度；