[发明专利]发音质量评估系统中的置信度快速求取方法有效
申请号: | 200810240811.3 | 申请日: | 2008-12-23 |
公开(公告)号: | CN101645271A | 公开(公告)日: | 2010-02-10 |
发明(设计)人: | 董滨;葛凤培;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L15/02 |
代理公司: | 北京法思腾知识产权代理有限公司 | 代理人: | 杨小蓉 |
地址: | 100190北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种发音质量评估系统中的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据全音节循环网络状态图、精细声学模型和语音特征向量进行解码,得到最优路径上的各音素分割点信息;根据精细声学模型和对应帧的PLP特征向量,对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的状态号,并计算各帧语音对应其相应状态的似然概率值;引入粗略的背景模型,计算每帧语音在该模型包含的所有状态下的似然概率和;计算每一帧待评估语音的广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。本发明的方法,采用粗糙的背景模型作为后验概率分母部分计算的依据,从而极大降低广义后验概率即置信度得分的计算量。 | ||
搜索关键词: | 发音 质量 评估 系统 中的 置信 快速 求取 方法 | ||
【主权项】:
1、一种发音质量评估系统中的置信度快速求取方法,其特征在于,包括如下步骤:1)将待识别语音输入语音识别系统中;2)对输入语音进行预处理,该预处理中包括分帧处理;3)采用感知加权线性预测参数特征提取方法或者美尔域倒谱系数特征提取方法提取语音特征;4)利用全音节循环网络状态图和精细声学模型,对特征向量序列进行解码,得到最优路径,记录最优路径上的各音素分割点信息;5)按照步骤4)中得到的音素分割点,根据精细声学模型和对应帧的特征向量,对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的状态号,并计算各帧语音对应其相应状态的似然概率值p(xt|st),其负对数为:- ln p ( x t | s t ) = d ( x t , s t ) = 1 2 [ ( x t - μ t ) Σ t - 1 ( x t - μ t ) + n ln ( 2 π ) + ln ( | Σ t | ) ] ]]> 其中,xt为输入的第t帧语音特征,st为第t帧语音特征对应的隐马尔科夫模型的状态,该状态为正态分布N(μt,∑t),n是特征向量的维数;6)引入粗略的背景模型,计算每帧语音在该模型包含的所有状态下的似然概率和Σ s k ∈ D * p ( x t | s k ) , ]]> 其中,D*是粗略背景模型中所有状态的集合;7)计算每一帧待评估语音的广义后验概率:p ( s t | x t ) = p ( x t | s t ) Σ s k ∈ D * p ( x t | s k ) ; ]]> 8)分别计算每个音素的广义后验概率:p ( ph ) = 1 τ e - τ s + 1 Σ t = τ s τ e p ( s t | x t ) ]]> 其中,τs、τe分别指输入的语音特征在当前音素的起始帧号和结束帧号,st是从强制对齐结果中获得的对应于第t帧语音特征xt的状态号;9)将音素的广义后验概率作为该音素在发音质量评估系统中的置信度得分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810240811.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种自动交换光网络保护的分布式配置方法
- 下一篇:一种治疗寻常型银屑病的药剂