[发明专利]一种提高语音合成系统表现力的建模方法无效

专利信息
申请号: 201010046519.5 申请日: 2010-01-08
公开(公告)号: CN102122505A 公开(公告)日: 2011-07-13
发明(设计)人: 王程程 申请(专利权)人: 王程程
主分类号: G10L13/02 分类号: G10L13/02;G10L13/04;G10L15/02;G10L15/06;G10L15/14
代理公司: 暂无信息 代理人: 暂无信息
地址: 230027 安徽省合肥市蜀*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公布了一种提高语音合成系统表现力的建模方法,本发明的特征是在Trainable TTs中引入了基频和频谱两个声学特征异步建模的概念,保证基频与频谱的音素边界相同的情况下进行独立的模型训练,最后通过参数生成算法各自生成出参数然后进行语音合成,实现了合成语音在音质的表现力方面的提升。
搜索关键词: 一种 提高 语音 合成 系统 表现力 建模 方法
【主权项】:
一种提高语音合成系统表现力的建模方法,即基频和频谱两个声学特征异步建模的方法,其特征是具体的实现方式如下:(1)、模型训练:在保证基频与频谱的音素边界与原来基线系统相同的情况下,通过各自的异步建模观察对基频模型和基频参数预测的表现。实际上,这是一种半异步的做法,之所以没有完全异步,我们是考虑到以下问题:如果基频与频谱在没有相同音素边界的限定的情况下建模,基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不准;在合成时,我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下:I.训练开始,最初步骤与原来同步建模系统相同,直到训练出初始的聚类隐马尔可夫模型(HMMs)。II.用Baum‑Welch参数更新算法深入训I练后的同步模型来确定音素的边界,作为后面基频和频谱异步建模的公共的一致性的边界。III.确定音素边界后,对基频和频谱分别进行深入训练,即在音素边界固定的情况下,对于基频频谱分别进行Baum‑Welch参数更新算法进行更新。分别得到基频和频谱的新的聚类HMMs。IV.得到基频和频谱的各自音素内部的状态划分,训练音素时长,频谱状态时长,基频状态时长模型。(2)、参数生成:基频和频谱参数生成就是在给定HMM集合λ的前提下,对目标矢量参数O1,O2(这里为频谱和基频参数)进行预测,相当于最大化P(O1,O2|λ),而此式可写作: P ( O 1 , O 2 | λ ) = Σ q 1 , q 2 P ( O 1 , O 2 | λ , q 1 , q 2 ) P ( q 1 , q 2 | λ ) = Σ q 1 , q 2 P ( O 1 | λ , q 1 ) P ( O 2 | λ , q 2 ) P ( q 1 , q 2 | λ ) 在传统同步建模中,状态序列q1=q2=q;而在异步建模中,q1≠q2。所以,在异步系统中,参数生成可近似的分为以下两步最大化操作: [ q 1 * , q 2 * ] = arg max q 1 , q 2 P ( q 1 | λ ) P ( q 2 | λ ) [ O 1 * , O 2 * ] = arg max O 1 , O 2 P ( O 1 | λ , q 1 * ) P ( O 2 | λ , q 2 * ) 接下来使用一阶,二阶动态参数的参数生成算法与原基线系统一致。参数生成时的时长预测问题,涉及到音素时长,频谱和基频的状态时长的加权。对目标参数di,di′的预测,相当于最大化下面的似然值:似然值: F = Σ i log P ( d i | λ i ) + w 1 Σ i log P ( d i | λ i ) + w 2 Σ i log P ( d | λ ) 约束条件: Σ i d i = d Σ i d i = d 其中:似然值F式子的第一部分是频谱状态时长的似然值,第二部分是基频状态时长的似然值,第三部分为音素时长的似然值,三部分通过w1和w2这两个权值加权到一起,目的是在F式最大的情况下生成时长参数。di为预测的频谱时长,di′为预测的基频时长,d为预测的音素时长。 P i = N ( d i | m i , σ i 2 ) 为频谱时长的模型分布, P i = N ( d i | m i , σ i 2 ) 为基频时长的模型分布,P=N(d|m,σ2)为音素时长的模型分布。由拉格朗日: F = - 1 2 Σ i ( d i - m i ) 2 σ i 2 - w 1 2 Σ i ( d i - m i ) 2 σ i 2 - w 2 2 Σ i ( d - m ) 2 σ 2 + λ 1 ( Σ i d i - d ) + λ 2 ( Σ i d i - d ) 解上面这个方程,得到最终预测的时长: d i * = m i + ρ i · σ i 2 d i * = m i + ρ 2 · σ i 2 其中: ρ 1 = d - Σ i m i Σ i σ i 2 ρ 2 = w 1 ( d - Σ i m i ) Σ i σ i 2 w1和w2值选取不同,得到的效果也就各不相同。经过了上面的流程之后,频谱,基频,时长等参数得以生成,进而最后的语音合成得以实现。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王程程,未经王程程许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201010046519.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top