[发明专利]一种提高语音合成系统表现力的建模方法无效

申请号：	201010046519.5	申请日：	2010-01-08
公开（公告）号：	CN102122505A	公开（公告）日：	2011-07-13
发明（设计）人：	王程程	申请（专利权）人：	王程程
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/04;G10L15/02;G10L15/06;G10L15/14
代理公司：	暂无信息	代理人：	暂无信息
地址：	230027 安徽省合肥市蜀***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提高语音合成系统表现力建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种提高语音合成系统表现力的建模方法，即基频和频谱两个声学特征异步建模的方法，其特征是具体的实现方式如下：

(1)、模型训练：在保证基频与频谱的音素边界与原来基线系统相同的情况下，通过各自的异步建模观察对基频模型和基频参数预测的表现。实际上，这是一种半异步的做法，之所以没有完全异步，我们是考虑到以下问题：如果基频与频谱在没有相同音素边界的限定的情况下建模，基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不准；在合成时，我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下：

I．训练开始，最初步骤与原来同步建模系统相同，直到训练出初始的聚类隐马尔可夫模型(HMMs)。

II．用Baum-Welch参数更新算法深入训I练后的同步模型来确定音素的边界，作为后面基频和频谱异步建模的公共的一致性的边界。

III．确定音素边界后，对基频和频谱分别进行深入训练，即在音素边界固定的情况下，对于基频频谱分别进行Baum-Welch参数更新算法进行更新。分别得到基频和频谱的新的聚类HMMs。

IV．得到基频和频谱的各自音素内部的状态划分，训练音素时长，频谱状态时长，基频状态时长模型。

(2)、参数生成：基频和频谱参数生成就是在给定HMM集合λ的前提下，对目标矢量参数O₁，O₂(这里为频谱和基频参数)进行预测，相当于最大化P(O₁，O₂|λ)，而此式可写作：

P(O1,O2|λ)=Σq1,q2P(O1,O2|λ,q1,q2)P(q1,q2|λ)]]>

=Σq1,q2P(O1|λ,q1)P(O2|λ,q2)P(q1,q2|λ)]]>

在传统同步建模中，状态序列q₁＝q₂＝q；而在异步建模中，q₁≠q₂。所以，在异步系统中，参数生成可近似的分为以下两步最大化操作：

[q1*,q2*]=argmaxq1,q2P(q1|λ)P(q2|λ)]]>

[O1*,O2*]=argmaxO1,O2P(O1|λ,q1*)P(O2|λ,q2*)]]>

接下来使用一阶，二阶动态参数的参数生成算法与原基线系统一致。

参数生成时的时长预测问题，涉及到音素时长，频谱和基频的状态时长的加权。对目标参数d_i，d_i′的预测，相当于最大化下面的似然值：

似然值：F=ΣilogP(di|λi)+w1ΣilogP(di′|λi′)+w2ΣilogP(d|λ)]]>

约束条件：Σidi=d]]>

Σidi′=d]]>

其中：似然值F式子的第一部分是频谱状态时长的似然值，第二部分是基频状态时长的似然值，第三部分为音素时长的似然值，三部分通过w₁和w₂这两个权值加权到一起，目的是在F式最大的情况下生成时长参数。d_i为预测的频谱时长，d_i′为预测的基频时长，d为预测的音素时长。Pi=N(di|mi,σi2)]]>为频谱时长的模型分布，Pi′=N(di′|mi′,σi′2)]]>为基频时长的模型分布，P＝N(d|m，σ²)为音素时长的模型分布。