[发明专利]一种基于音素混淆网络的音素后验概率计算方法无效

申请号：	201010164874.2	申请日：	2010-04-30
公开（公告）号：	CN101887725A	公开（公告）日：	2010-11-17
发明（设计）人：	葛凤培;颜永红	申请（专利权）人：	中国科学院声学研究所
主分类号：	G10L19/00	分类号：	G10L19/00;G10L15/02
代理公司：	北京法思腾知识产权代理有限公司 11318	代理人：	杨小蓉;高宇
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于音素混淆网络的音素后验概率算法，包括：预处理分帧；提取每帧语音的语音特征；根据全音节循环网络状态图、声学模型和语音特征向量进行解码，得到最优路径上的各音素分割点信息；在各个音素段内，搭建其对应的音素混淆网络，对网络中的每一条路径计算语音的声学似然值；利用在学习文本对应的路径上获得的声学似然值来计算音素后验概率的分子部分，将混淆网络所有路径上的声学似然值进行时间规整后累加作为音素后验概率的分母，从而计算出更为精确的音素后验概率。本发明的方法，采用一种改进的基于音素混淆网络的音素后验概率算法作为评价音素发音质量的依据，在不影响计算速度的基础上大幅度提高了发音质量评估的准确性。
搜索关键词：	一种基于音素混淆网络概率计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于音素混淆网络的音素后验概率算法，其特征在于，包括如下步骤：1)输入待识别语音；2)对输入语音进行预处理，所述预处理包括分帧处理；3)提取语音特征，得到待识别语音的特征向量序列；4)利用全音节循环网络状态图和声学模型，对特征向量序列进行解码，得到最优路径作为识别结果，记录最优路径上的各音素分割点信息；5)根据步骤4)获得的识别结果以及目标学习文本，在各个语音段内搭建其对应的音素混淆网络；6)按照步骤4)中得到的音素分割点和步骤5)中搭建的音素混淆网络，根据声学模型和音素段对应的特征向量序列，在混淆网络的每条路径上将模型状态和语音特征做强制对齐，获得该语音段在该路径上的声学似然值；7)对步骤6)获得的声学似然值进行段长规整，即pnor((x1，...，xt)|(s1，...，st))＝p((x1，...，xt)|(s1，...，st))1/T，其中，p((x1，...，xt)|(s1，...，st))是规整前的声学似然值，pnor((x1，...，xt)|(s1，...，st))是规整后的声学似然值，T是该音素段的语音帧数；8)计算基于音素混淆网络的音素后验概率： p ( ph ) = p nor ( ( x 1 , . . . , x t ) | ( s 1 , . . . , s t ) ref ) Σ k ∈ CN p nor ( ( x 1 , . . . , x t ) | ( s 1 , . . . , s t ) k ) , 其中，(s1，...，st)ref是根据学习文本获得的状态序列，CN是包含多条音素并联路径的混淆网络。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所，未经中国科学院声学研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201010164874.2/，转载请声明来源钻瓜专利网。

上一篇：从HELP编码到MELP编码的语音编码数据转换系统及方法
下一篇：一种液晶电视色温动态预测的方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于音素混淆网络的音素后验概率计算方法无效

专利文献下载