[发明专利]语音合成中时长参数的生成方法有效

申请号：	201110160419.X	申请日：	2011-06-15
公开（公告）号：	CN102222501A	公开（公告）日：	2011-10-19
发明（设计）人：	陶建华;潘诗锋	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G10L15/14	分类号：	G10L15/14;G10L15/06
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	梁爱荣
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成中时长参数生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于隐马尔可夫模型(Hidden Markov Model，HMM)语音合成中的状态时长参数生成方法，尤指一种结合时长整体方差的状态时长参数生成方法。

背景技术

和谐人机交互技术一直都是人们关注的对象，而语音合成技术则是其重要组成部分，其目标是使得计算机能够像人一样产生自然的语音。由于语音是人类交流的重要手段，是互相传递信息最直接、最有效的手段，因此，其研究成果对自然和谐的人机交互等方向的发展具有重要的意义

作为语音合成中的一个主流方法，基于HMM的语音合成因为具有输出语音平滑、稳定，适合实现多种发音风格的控制，合成系统构建的自动化程度很高，计算和存储资源需求小等优点而获得了极为广泛的应用。然而，目前基于HMM的语音合成方法生成的语音在韵律表现上较为平淡，一个重要的原因就是各个音节的时长分布过于平均，显得较为机械化，而相比而言自然语流中音节时长的分布则明显长短错落有致。这是由于统计参数语音合成中对语音参数进行统计建模时，是基于短时结构的，它能对短时的语音特征参数进行较好的统计建模，但缺乏对更高韵律层级上特征信息的有效获取和建模，从而在生成时长参数时无法给予各个语音单元来自高韵律级别上的指导和约束，导致时长分布的过于平均。

为了克服基于HMM的语音合成中生成的状态时长参数过平均的问题，有学者提出了将HMM状态时长模型与声韵母时长模型相结合的方法进行状态时长的生成(吴义坚，王仁华.基于HMM的可训练中文语音合成.中文信息学报.2006年04期)。该方法通过加入声韵母时长模型似然值的约束来抑制生成的状态时长参数过平均的问题。尽管该方法能够在一定程度上抑制生成的状态时长参数过平均的问题，不过由于所建立的声韵母时长模型也存在较强的统计平均，且声韵母单元也是一种较短的语音单元，而对普通话感知而言音节才是更加重要的语音单元，因此该方法对状态时长参数过平均问题的抑制能力有限。

发明内容

为了解决当前基于HMM的语音合成中生成的时长参数过于平均从而导致合成语音自然度质量下降的技术问题，本发明目的是要提出一种方法，可以在高层韵律级别上(如短语级别、句子级别等，而非HMM建模中常用的音素单元)对语音单元时长的分布进行统计建模；在状态时长参数生成阶段，在传统HMM状态时长模型基础之上结合该模型进行时长参数的生成，后者将惩罚单纯由HMM时长模型生成的时长参数在高韵律层级上与自然语音时长分布特点的不匹配从而抑制生成的时长参数过于平均的问题。

为实现上述目的，本发明采用整体方差来对训练语句在句子级别上统计语音单元时长的分布性，构建一个上下文相关的时长整体方差模型；在状态时长参数生成阶段中最大化由HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数。

本发明提供的语音合成中状态时长参数的生成方法，所述生成状态时长参数的步骤包括：

步骤Sa：对待合成的文本进行文本分析，提取与HMM模型相关的上下文特征信息以及与时长整体方差模型相关的上下文特征信息，根据整体方差建模规范中确定的上下文特征信息项对待合成文本进行与时长整体方差模型相关的上下文特征信息提取，将与HMM模型相关的上下文特征信息依序组合成为上下文相关的HMM模型序列；

步骤Sb：利用HMM状态时长模型集对上下文相关的HMM模型序列进行决策，得到HMM状态时长模型序列；

步骤Sc：利用时长整体方差模型集对提取出的时长整体方差模型相关的上下文特征信息进行决策，得到一个时长整体方差模型；

步骤Sd：通过最大化由决策出的HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数；其中在计算时长整体方差模型似然值时，时长整体方差值的计算需根据整体方差建模规范中确定的语音单元级别来生成该语音单元级别上的时长整体方差值。

优选地，构建时长整体方差模型的步骤包括：

创建时长整体方差模型训练语料库，选择合适的时长整体方差建模规范，利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本；

训练生成时长整体方差模型是利用全部时长整体方差训练样本进行时长整体方差模型的估计；

基于HMM状态时长模型和训练得到的时长整体方差模型执行生成状态时长参数。

优选地，所述选择合适的时长整体方差建模规范是确定时长整体方差建模的语音单元级别；确定与时长整体方差相关的上下文特征信息项。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110160419.X/2.html，转载请声明来源钻瓜专利网。

上一篇：基于平衡电极内浆和陶瓷膜收缩率的MLCC电容器
下一篇：一种显示器节能方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音合成中时长参数的生成方法有效

专利文献下载