[发明专利]一种基于音素混淆网络的音素后验概率计算方法无效
申请号: | 201010164874.2 | 申请日: | 2010-04-30 |
公开(公告)号: | CN101887725A | 公开(公告)日: | 2010-11-17 |
发明(设计)人: | 葛凤培;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L15/02 |
代理公司: | 北京法思腾知识产权代理有限公司 11318 | 代理人: | 杨小蓉;高宇 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于音素混淆网络的音素后验概率算法,包括:预处理分帧;提取每帧语音的语音特征;根据全音节循环网络状态图、声学模型和语音特征向量进行解码,得到最优路径上的各音素分割点信息;在各个音素段内,搭建其对应的音素混淆网络,对网络中的每一条路径计算语音的声学似然值;利用在学习文本对应的路径上获得的声学似然值来计算音素后验概率的分子部分,将混淆网络所有路径上的声学似然值进行时间规整后累加作为音素后验概率的分母,从而计算出更为精确的音素后验概率。本发明的方法,采用一种改进的基于音素混淆网络的音素后验概率算法作为评价音素发音质量的依据,在不影响计算速度的基础上大幅度提高了发音质量评估的准确性。 | ||
搜索关键词: | 一种 基于 音素 混淆 网络 概率 计算方法 | ||
【主权项】:
一种基于音素混淆网络的音素后验概率算法,其特征在于,包括如下步骤:1)输入待识别语音;2)对输入语音进行预处理,所述预处理包括分帧处理;3)提取语音特征,得到待识别语音的特征向量序列;4)利用全音节循环网络状态图和声学模型,对特征向量序列进行解码,得到最优路径作为识别结果,记录最优路径上的各音素分割点信息;5)根据步骤4)获得的识别结果以及目标学习文本,在各个语音段内搭建其对应的音素混淆网络;6)按照步骤4)中得到的音素分割点和步骤5)中搭建的音素混淆网络,根据声学模型和音素段对应的特征向量序列,在混淆网络的每条路径上将模型状态和语音特征做强制对齐,获得该语音段在该路径上的声学似然值;7)对步骤6)获得的声学似然值进行段长规整,即pnor((x1,...,xt)|(s1,...,st))=p((x1,...,xt)|(s1,...,st))1/T,其中,p((x1,...,xt)|(s1,...,st))是规整前的声学似然值,pnor((x1,...,xt)|(s1,...,st))是规整后的声学似然值,T是该音素段的语音帧数;8)计算基于音素混淆网络的音素后验概率: p ( ph ) = p nor ( ( x 1 , . . . , x t ) | ( s 1 , . . . , s t ) ref ) Σ k ∈ CN p nor ( ( x 1 , . . . , x t ) | ( s 1 , . . . , s t ) k ) , 其中,(s1,...,st)ref是根据学习文本获得的状态序列,CN是包含多条音素并联路径的混淆网络。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010164874.2/,转载请声明来源钻瓜专利网。