[发明专利]一种基于音素混淆网络的音素后验概率计算方法无效
申请号: | 201010164874.2 | 申请日: | 2010-04-30 |
公开(公告)号: | CN101887725A | 公开(公告)日: | 2010-11-17 |
发明(设计)人: | 葛凤培;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L15/02 |
代理公司: | 北京法思腾知识产权代理有限公司 11318 | 代理人: | 杨小蓉;高宇 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 音素 混淆 网络 概率 计算方法 | ||
技术领域
本发明属于发音质量评估技术领域,具体地说,本发明涉及一种用于发音质量评估系统中的置信度计算方法。
背景技术
在自然条件下使用发音质量评估系统,不同于在理想实验环境下的使用,这时发音质量评估系统的性能会有很大的降低。而且对于真实的口语,在语音中会参杂很多非语音,譬如非正常停顿、咳嗽声以及很多的环境噪声,这都给发音质量评估系统达到原有的评估精度造成了困难。另外,用户说的词汇如果不在发音质量评估系统预先设定的领域范围内,也较容易造成评估误差。总之,对于商业化的发音质量评估系统,用户的期望是尽可能的准确评估发音质量,与此同时还要求比较快的评估速度,而置信度评价方法正是解决这些困难的一种关键性措施。
置信度评价方法可以对发音质量评估系统的目标发音在特定的时间间隔内进行假设检验,通过预先训练的阈值对待评估发音段的准确性进行评价,从而提高发音质量评估系统的准确率和稳健性。
目前,把目标文本的后验概率(即传统Goodness of Pronunciation算法)作为计算发音评估的置信度是一种应用较广的做法。图1为现有的置信度计算方法的示意图。输入语音首先通过全音节网络识别器进行一遍解码,在这个过程中,可以获得对应于输入语音的音素分割点。然后在每个音素段内与目标音素强制对齐,从而获得目标文本对应的声学似然值。再利用全音节网络识别结果中最优候选路径上的声学似然值,最终计算出目标文本在待评估语音下的音素后验概率作为置信度得分。该算法是对理论上的音素后验概率算法的简化。首先,为了减少分母的计算量,它假设求和算法的结果近似等于求最大值算法的结果。当用户由一个音素错发成音素集中另外一个音素时,这种假设可以很好的近似于真实后验概率的值;但当用户的发音不同于音素集中任何一个标准发音时,最大值就与求和相差很多了。此时,求和算法近似等于求最大值算法的假设会严重降低置信度的计算精度。其次,为使后验概率值能在不同语音段间比较,GOP算法还采用了在后验概率基础上的段长规整策略。但是理论上,声学似然值是状态转移概率与语音观察概率随语音帧数的累积量,时间长度直接影响声学似然值的大小,而又间接将这种影响传递到音素后验概率上,所以对声学似然值作时间规整才更为合理。以上两个缺陷导致传统的GOP算法的计算精度很低,特别是用户为第二语言学习者时,它的性能变得难以接受,从而很不利于发音质量评估系统的在线使用和实际推广。
发明内容
本发明的目的是克服现有技术的不足,综合考虑计算速度和稳健性,提供一种用于发音质量评估系统中的基于音素混淆网络的音素后验概率算法,该方法是一种利用音素混淆网络来计算音素后验概率并将其作为发音质量评估置信度的算法。
为实现上述发明目的,本发明提供的发音质量评估系统中的基于音素混淆网络的音素后验概率算法,包括如下步骤:
1)将待识别语音输入语音识别系统中;
2)对输入语音进行预处理,该预处理中包括分帧;
3)采用感知加权线性预测参数(PLP)特征提取方法或者美尔域倒谱系数(MFCC)特征提取方法提取语音特征;
4)利用全音节循环网络状态图和声学模型,对特征向量序列进行解码,得到最优路径,记录最优路径上的各音素分割点信息;
5)根据步骤4)获得的最优路径识别结果的上下文以及目标学习文本,在各个音素段内搭建其对应的音素混淆网络;
6)按照步骤4)中得到的音素分割点和步骤5)中搭建的音素混淆网络,根据声学模型和语音段对应的特征向量序列,在混淆网络的每条路径上将模型状态和语音特征做强制对齐,获得该语音段在该路径上的声学似然值;
7)对步骤6)获得的声学似然值进行段长规整,即
pnor((x1,...,xt)|(s1,...,st))=p((x1,...,xt)|(s1,..,st))1/T,
其中,p((x1,...,xt)|(s1,...,st))是规整前的声学似然值,pnor((x1,...,xt)|(s1,...,st))是规整后的声学似然值,T是该音素段的时间长度;
8)计算基于音素混淆网络的音素后验概率:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010164874.2/2.html,转载请声明来源钻瓜专利网。