[发明专利]一种提高语音合成系统表现力的建模方法无效

申请号：	201010046519.5	申请日：	2010-01-08
公开（公告）号：	CN102122505A	公开（公告）日：	2011-07-13
发明（设计）人：	王程程	申请（专利权）人：	王程程
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/04;G10L15/02;G10L15/06;G10L15/14
代理公司：	暂无信息	代理人：	暂无信息
地址：	230027 安徽省合肥市蜀***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提高语音合成系统表现力建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音合成领域，具体是提出一种对语音合成中基频和频谱两个声学特征异步建模的方法，达到提高合成语音的音质，使其韵律更加丰富的目的。

背景技术

语音合成技术的研究已有两百多年的历史，但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中，早期的研究主要是采用参数合成方法，后来随着计算机技术的发展又出现了波形拼接的合成方法。

在语音合成技术的发展中，早期的研究主要是采用参数合成方法。值得提及的是Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980)，只要精心调整参数，这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美国DEC公司的DECtalk(1987)。但是经过多年的研究与实践表明，由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实用要求。基于隐马尔可夫模型(HMM-based TrainableTTS)方法就是将HMM用于语音信号的建模和预测的参数合成方法，它能够实现稳定平滑的语音合成，但是由于参数模型是预测的，所以他合成出来的语音的音质存在一定缺陷。

在基于HMM的参数语音合成中，需要对频谱参数和基频参数同时进行建模和预测。传统方法是使用一个多流的HMM来对这两种参数进行同步建模，即：频谱参数和基频参数共享同样的一个状态序列；在状态序列给定的情况下，基频特征和频谱特征是独立的。也就是说，传统的Trainable TTS系统是同步和独立的。这样的同步假设是否会带来一些问题？我们知道，基频和频谱产生的生理机理是不同的，基频是说话时声带振动，产生基音的频率。而频谱反映了声道的形状。不同的发音器官器官决定了基频和频谱本应该是有异步性的。如果假设为同步会带来什么影响呢？我们知道，传统方法在HMM训练时，通过训练数据调整模型参数，包括状态转移和输出的概率分布，使模型创建的输出序列具有最大的概率，而状态占有率的计算是基频参数和谱参数结合在一起进行的：

r_t(i)＝P(q_t＝S_i|O₁，O₂，λ)其中，r_t(i)为t时刻是状态S_i的概率，O₁，O₂分别为频谱和基频参数的观测值，λ为HMM模型。

由于谱参数(O₁)的维数(一般123维)大大于基频参数(O₂)的维数(一般3维)，所以谱参数基本决定了状态占有率，对模型状态的分布及参数的更新起导向性作用。这样一起进行建模势必会影响到维数较小的基频模型的准确性。所以，我们提出基频与频谱异步独立建模的思想，使基频解除频谱的这种束缚，独立的根据训练数据的基频参数统计建模。

基于上面的分析，为了达到合成语音在音质的表现力方面的提升，提出基频与频谱异步独立建模的思想，从而提高了语音合成的系统的总体水平。

发明内容

本发明提供了一种提高语音合成系统表现力的建模方法，本发明的特征是在Trainable TTS中引入了基频和频谱两个声学特征异步建模的概念，保证基频与频谱的音素边界相同的情况下进行独立的模型训练，最后通过参数生成算法各自生成出参数然后进行语音合成，实现了合成语音在音质的表现力方面的提升。

本发明的技术方案如下：

(1)、模型训练：在保证基频与频谱的音素边界与原来基线系统相同的情况下，通过各自的异步建模观察对基频模型和基频参数预测的表现。实际上，这是一种半异步的做法，之所以没有完全异步，我们是考虑到以下问题：如果基频与频谱在没有相同音素边界的限定的情况下建模，基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不准；在合成时，我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下：

I.训练开始，最初步骤与原来同步建模系统相同，直到训练出初始的聚类隐马尔可夫模型(HMMs)。

II.用Baum-Welch参数更新算法深入训练后的同步模型来确定音素的边界，作为后面基频和频谱异步建模的公共的一致性的边界。

III.确定音素边界后，对基频和频谱分别进行深入训练，即在音素边界固定的情况下，对于基频频谱分别进行Baum-Welch参数更新算法进行更新。分别得到基频和频谱的新的聚类HMMs。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于王程程，未经王程程许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010046519.5/2.html，转载请声明来源钻瓜专利网。

上一篇：折射、反射缩聚镜
下一篇：一种泥石流监测分析预警装置及泥石流监测方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种提高语音合成系统表现力的建模方法无效

专利文献下载