[发明专利]一种提高语音合成系统表现力的建模方法无效

申请号：	201010046519.5	申请日：	2010-01-08
公开（公告）号：	CN102122505A	公开（公告）日：	2011-07-13
发明（设计）人：	王程程	申请（专利权）人：	王程程
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/04;G10L15/02;G10L15/06;G10L15/14
代理公司：	暂无信息	代理人：	暂无信息
地址：	230027 安徽省合肥市蜀***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公布了一种提高语音合成系统表现力的建模方法，本发明的特征是在Trainable TTs中引入了基频和频谱两个声学特征异步建模的概念，保证基频与频谱的音素边界相同的情况下进行独立的模型训练，最后通过参数生成算法各自生成出参数然后进行语音合成，实现了合成语音在音质的表现力方面的提升。
搜索关键词：	一种提高语音合成系统表现力建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种提高语音合成系统表现力的建模方法，即基频和频谱两个声学特征异步建模的方法，其特征是具体的实现方式如下：(1)、模型训练：在保证基频与频谱的音素边界与原来基线系统相同的情况下，通过各自的异步建模观察对基频模型和基频参数预测的表现。实际上，这是一种半异步的做法，之所以没有完全异步，我们是考虑到以下问题：如果基频与频谱在没有相同音素边界的限定的情况下建模，基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不准；在合成时，我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下：I．训练开始，最初步骤与原来同步建模系统相同，直到训练出初始的聚类隐马尔可夫模型(HMMs)。II．用Baum‑Welch参数更新算法深入训I练后的同步模型来确定音素的边界，作为后面基频和频谱异步建模的公共的一致性的边界。III．确定音素边界后，对基频和频谱分别进行深入训练，即在音素边界固定的情况下，对于基频频谱分别进行Baum‑Welch参数更新算法进行更新。分别得到基频和频谱的新的聚类HMMs。IV．得到基频和频谱的各自音素内部的状态划分，训练音素时长，频谱状态时长，基频状态时长模型。(2)、参数生成：基频和频谱参数生成就是在给定HMM集合λ的前提下，对目标矢量参数O1，O2(这里为频谱和基频参数)进行预测，相当于最大化P(O1，O2|λ)，而此式可写作： P ( O 1 , O 2 | λ ) = Σ q 1 , q 2 P ( O 1 , O 2 | λ , q 1 , q 2 ) P ( q 1 , q 2 | λ ) = Σ q 1 , q 2 P ( O 1 | λ , q 1 ) P ( O 2 | λ , q 2 ) P ( q 1 , q 2 | λ ) 在传统同步建模中，状态序列q1＝q2＝q；而在异步建模中，q1≠q2。所以，在异步系统中，参数生成可近似的分为以下两步最大化操作： [ q 1 * , q 2 * ] = arg max q 1 , q 2 P ( q 1 | λ ) P ( q 2 | λ ) [ O 1 * , O 2 * ] = arg max O 1 , O 2 P ( O 1 | λ , q 1 * ) P ( O 2 | λ , q 2 * ) 接下来使用一阶，二阶动态参数的参数生成算法与原基线系统一致。参数生成时的时长预测问题，涉及到音素时长，频谱和基频的状态时长的加权。对目标参数di，di′的预测，相当于最大化下面的似然值：似然值： F = Σ i log P ( d i | λ i ) + w 1 Σ i log P ( d i ′ | λ i ′ ) + w 2 Σ i log P ( d | λ ) 约束条件： Σ i d i = d Σ i d i ′ = d 其中：似然值F式子的第一部分是频谱状态时长的似然值，第二部分是基频状态时长的似然值，第三部分为音素时长的似然值，三部分通过w1和w2这两个权值加权到一起，目的是在F式最大的情况下生成时长参数。di为预测的频谱时长，di′为预测的基频时长，d为预测的音素时长。 P i = N ( d i | m i , σ i 2 ) 为频谱时长的模型分布， P i ′ = N ( d i ′ | m i ′ , σ i ′ 2 ) 为基频时长的模型分布，P＝N(d|m，σ2)为音素时长的模型分布。由拉格朗日： F = - 1 2 Σ i ( d i - m i ) 2 σ i 2 - w 1 2 Σ i ( d i ′ - m i ′ ) 2 σ i ′ 2 - w 2 2 Σ i ( d - m ) 2 σ 2 + λ 1 ( Σ i d i - d ) + λ 2 ( Σ i d i ′ - d ) 解上面这个方程，得到最终预测的时长： d i * = m i + ρ i · σ i 2 d i ′ * = m i ′ + ρ 2 · σ i ′ 2 其中： ρ 1 = d - Σ i m i Σ i σ i 2 ρ 2 = w 1 ( d - Σ i m i ′ ) Σ i σ i ′ 2 w1和w2值选取不同，得到的效果也就各不相同。经过了上面的流程之后，频谱，基频，时长等参数得以生成，进而最后的语音合成得以实现。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于王程程，未经王程程许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201010046519.5/，转载请声明来源钻瓜专利网。

上一篇：折射、反射缩聚镜
下一篇：一种泥石流监测分析预警装置及泥石流监测方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种提高语音合成系统表现力的建模方法无效

专利文献下载