[发明专利]一种基于发音模型的语音质量评测方法有效

申请号：	201010164996.1	申请日：	2010-04-30
公开（公告）号：	CN101840699A	公开（公告）日：	2010-09-22
发明（设计）人：	葛凤培;颜永红	申请（专利权）人：	中国科学院声学研究所
主分类号：	G10L11/00	分类号：	G10L11/00;G10L15/00;G10L15/06
代理公司：	北京法思腾知识产权代理有限公司 11318	代理人：	杨小蓉;高宇
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于发音模型语音质量评测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于发音质量评估技术领域，具体地说，本发明涉及一种基于发音模型的语音质量评测方法。

背景技术

在自然条件下使用发音质量评估系统，不同于在理想实验环境下的使用，这时发音质量评估系统的性能会有很大的降低。而且对于真实的口语，在语音中会参杂很多非语音，譬如非正常停顿、咳嗽声以及很多的环境噪声，这都给发音质量评估系统达到原有的评估精度造成了困难。另外，用户说的词汇如果不在发音质量评估系统预先设定的领域范围内或者用户的发音带有一定的方言特色，也较容易造成评估误差。总之，对于商业化的发音质量评估系统，用户的期望是尽可能的准确评估发音质量，与此同时还要求比较快的评估速度。因此，目前各种语音质量评测方法都是围绕这两点来展开的。

语音质量评测方法可以对连续语音进行音素段的切分，然后在特定音素段内对目标发音进行假设检验，通过预先训练的阈值对待评估发音段的准确性进行评价，从而判断出用户的发音水平。

目前，采用声学模型和语音识别的框架进行音素切分和置信度计算来进行语音质量评测是一种应用较广的做法。例如，图1为一种现有的语音质量评测方法的示意图。如图1所示，输入语音首先利用声学模型对目标词序列作强制对齐。在这个过程中，可以获得对应于输入语音的音素分割点以及状态分割点。然后，计算出目标文本在待评估语音下的音素后验概率作为置信度，最后通过分数预测器获得机器自动评估的发音质量分数。在现有方法中，解码和置信度计算均使用了声学模型。声学模型是对标准发音声学空间中各个音素单元的建模，因此它没有对不同的发音质量进行描述，所以当遇到发音水平比较差的用户时，采用声学模型不能获得较为准确的音素分割点和音素后验概率值，从而很不利于发音质量评估系统的在线使用和实际推广。

发明内容

本发明的目的在于克服现有技术的不足，在未明显增加计算量的情况下，以提高系统稳健性为主要目标，提出一种基于发音模型的语音质量评测方法。该方法充分利用发音质量评估和语音识别的差别，对不同的发音质量等级进行区分性建模，构建出一个比声学空间更为广阔的发音空间，从而在解码时获得更准确的音素分割点，在置信度计算时获得更精确的音素后验概率，从而提高评估性能。

为实现上述发明目的，本发明提供的基于发音模型的语音质量评测方法，该方法包括发音模型的构建步骤和语音质量评测步骤；

其中发音模型构建步骤包括下列子步骤：

1.1)确定发音质量音素集；

1.2)对训练数据划分发音质量等级；

1.3)依据发音质量等级训练发音模型；

语音质量评测步骤包括下列子步骤：

2.1)提取待评测发音段的语音特征；

2.2)构建基于所述发音模型的解码网络，进行Viterbi解码；

2.3)对每个音素计算基于发音模型的置信度；

2.4)根据所述置信度得出所述待评测发音段的发音质量。

所述步骤1.1)中对每个音素分为三个不同的发音质量等级。

所述步骤1.2)中训练数据的发音质量等级划分包括如下步骤：准备训练数据的原始语音和音素标注文本；采用Viterbi解码算法，将原始语音和音素标注进行强制对齐，计算每个音素的后验概率；按照音素后验概率值的大小划分发音质量等级。

所述步骤1.3)中，所述发音模型采用传统隐马尔可夫模型的框架构建。

所述步骤2.2)中搭建基于发音模型的解码网络包括如下步骤：利用发音字典将目标文本转换成音素串序列；对每个音素将其各个发音质量并联；将音素串序列转换成各个音素质量并联子网络的串联宏网络即获得基于发音模型的解码网络。

所述步骤2.3)中对每个音素计算基于发音模型的置信度包括如下步骤：利用步骤2.2)中Viterbi解码获得的音素分割点信息，在指定音素段间搭建音素混淆网络；在音素混淆网络的每条路径上利用Viterbi算法获得声学似然值；计算音素后验概率作为发音质量评价的依据，取目标音素最优质量对应的路径上的声学似然值作为所述音素后验概率的分子，混淆网络的所有路径上的声学似然值的和作为所述音素后验概率的分母。

所述步骤2.4)中采用线性预测器得出所述待评测发音段的发音质量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所，未经中国科学院声学研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010164996.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L11-00 不限定于G10L 15/00至G10L 21/00单独一组中的语音或音频特征的测定或检测
G10L11-02 .检测有无语音信号
G10L11-04 .语音信号的音调测定
G10L11-06 .语音信号的浊音和清音之间的鉴别

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于发音模型的语音质量评测方法有效

专利文献下载