[发明专利]一种提高语音合成系统表现力的建模方法无效
申请号: | 201010046519.5 | 申请日: | 2010-01-08 |
公开(公告)号: | CN102122505A | 公开(公告)日: | 2011-07-13 |
发明(设计)人: | 王程程 | 申请(专利权)人: | 王程程 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L15/02;G10L15/06;G10L15/14 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230027 安徽省合肥市蜀*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种提高语音合成系统表现力的建模方法,本发明的特征是在Trainable TTs中引入了基频和频谱两个声学特征异步建模的概念,保证基频与频谱的音素边界相同的情况下进行独立的模型训练,最后通过参数生成算法各自生成出参数然后进行语音合成,实现了合成语音在音质的表现力方面的提升。 | ||
搜索关键词: | 一种 提高 语音 合成 系统 表现力 建模 方法 | ||
【主权项】:
一种提高语音合成系统表现力的建模方法,即基频和频谱两个声学特征异步建模的方法,其特征是具体的实现方式如下:(1)、模型训练:在保证基频与频谱的音素边界与原来基线系统相同的情况下,通过各自的异步建模观察对基频模型和基频参数预测的表现。实际上,这是一种半异步的做法,之所以没有完全异步,我们是考虑到以下问题:如果基频与频谱在没有相同音素边界的限定的情况下建模,基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不准;在合成时,我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下:I.训练开始,最初步骤与原来同步建模系统相同,直到训练出初始的聚类隐马尔可夫模型(HMMs)。II.用Baum‑Welch参数更新算法深入训I练后的同步模型来确定音素的边界,作为后面基频和频谱异步建模的公共的一致性的边界。III.确定音素边界后,对基频和频谱分别进行深入训练,即在音素边界固定的情况下,对于基频频谱分别进行Baum‑Welch参数更新算法进行更新。分别得到基频和频谱的新的聚类HMMs。IV.得到基频和频谱的各自音素内部的状态划分,训练音素时长,频谱状态时长,基频状态时长模型。(2)、参数生成:基频和频谱参数生成就是在给定HMM集合λ的前提下,对目标矢量参数O1,O2(这里为频谱和基频参数)进行预测,相当于最大化P(O1,O2|λ),而此式可写作: P ( O 1 , O 2 | λ ) = Σ q 1 , q 2 P ( O 1 , O 2 | λ , q 1 , q 2 ) P ( q 1 , q 2 | λ ) = Σ q 1 , q 2 P ( O 1 | λ , q 1 ) P ( O 2 | λ , q 2 ) P ( q 1 , q 2 | λ ) 在传统同步建模中,状态序列q1=q2=q;而在异步建模中,q1≠q2。所以,在异步系统中,参数生成可近似的分为以下两步最大化操作: [ q 1 * , q 2 * ] = arg max q 1 , q 2 P ( q 1 | λ ) P ( q 2 | λ ) [ O 1 * , O 2 * ] = arg max O 1 , O 2 P ( O 1 | λ , q 1 * ) P ( O 2 | λ , q 2 * ) 接下来使用一阶,二阶动态参数的参数生成算法与原基线系统一致。参数生成时的时长预测问题,涉及到音素时长,频谱和基频的状态时长的加权。对目标参数di,di′的预测,相当于最大化下面的似然值:似然值: F = Σ i log P ( d i | λ i ) + w 1 Σ i log P ( d i ′ | λ i ′ ) + w 2 Σ i log P ( d | λ ) 约束条件: Σ i d i = d Σ i d i ′ = d 其中:似然值F式子的第一部分是频谱状态时长的似然值,第二部分是基频状态时长的似然值,第三部分为音素时长的似然值,三部分通过w1和w2这两个权值加权到一起,目的是在F式最大的情况下生成时长参数。di为预测的频谱时长,di′为预测的基频时长,d为预测的音素时长。 P i = N ( d i | m i , σ i 2 ) 为频谱时长的模型分布, P i ′ = N ( d i ′ | m i ′ , σ i ′ 2 ) 为基频时长的模型分布,P=N(d|m,σ2)为音素时长的模型分布。由拉格朗日: F = - 1 2 Σ i ( d i - m i ) 2 σ i 2 - w 1 2 Σ i ( d i ′ - m i ′ ) 2 σ i ′ 2 - w 2 2 Σ i ( d - m ) 2 σ 2 + λ 1 ( Σ i d i - d ) + λ 2 ( Σ i d i ′ - d ) 解上面这个方程,得到最终预测的时长: d i * = m i + ρ i · σ i 2 d i ′ * = m i ′ + ρ 2 · σ i ′ 2 其中: ρ 1 = d - Σ i m i Σ i σ i 2 ρ 2 = w 1 ( d - Σ i m i ′ ) Σ i σ i ′ 2 w1和w2值选取不同,得到的效果也就各不相同。经过了上面的流程之后,频谱,基频,时长等参数得以生成,进而最后的语音合成得以实现。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王程程,未经王程程许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010046519.5/,转载请声明来源钻瓜专利网。
- 上一篇:折射、反射缩聚镜
- 下一篇:一种泥石流监测分析预警装置及泥石流监测方法