[发明专利]一种提高语音合成系统表现力的建模方法无效
申请号: | 201010046519.5 | 申请日: | 2010-01-08 |
公开(公告)号: | CN102122505A | 公开(公告)日: | 2011-07-13 |
发明(设计)人: | 王程程 | 申请(专利权)人: | 王程程 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L15/02;G10L15/06;G10L15/14 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230027 安徽省合肥市蜀*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提高 语音 合成 系统 表现力 建模 方法 | ||
1.一种提高语音合成系统表现力的建模方法,即基频和频谱两个声学特征异步建模的方法,其特征是具体的实现方式如下:
(1)、模型训练:在保证基频与频谱的音素边界与原来基线系统相同的情况下,通过各自的异步建模观察对基频模型和基频参数预测的表现。实际上,这是一种半异步的做法,之所以没有完全异步,我们是考虑到以下问题:如果基频与频谱在没有相同音素边界的限定的情况下建模,基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不准;在合成时,我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下:
I.训练开始,最初步骤与原来同步建模系统相同,直到训练出初始的聚类隐马尔可夫模型(HMMs)。
II.用Baum-Welch参数更新算法深入训I练后的同步模型来确定音素的边界,作为后面基频和频谱异步建模的公共的一致性的边界。
III.确定音素边界后,对基频和频谱分别进行深入训练,即在音素边界固定的情况下,对于基频频谱分别进行Baum-Welch参数更新算法进行更新。分别得到基频和频谱的新的聚类HMMs。
IV.得到基频和频谱的各自音素内部的状态划分,训练音素时长,频谱状态时长,基频状态时长模型。
(2)、参数生成:基频和频谱参数生成就是在给定HMM集合λ的前提下,对目标矢量参数O1,O2(这里为频谱和基频参数)进行预测,相当于最大化P(O1,O2|λ),而此式可写作:
在传统同步建模中,状态序列q1=q2=q;而在异步建模中,q1≠q2。所以,在异步系统中,参数生成可近似的分为以下两步最大化操作:
接下来使用一阶,二阶动态参数的参数生成算法与原基线系统一致。
参数生成时的时长预测问题,涉及到音素时长,频谱和基频的状态时长的加权。对目标参数di,di′的预测,相当于最大化下面的似然值:
似然值:
约束条件:
其中:似然值F式子的第一部分是频谱状态时长的似然值,第二部分是基频状态时长的似然值,第三部分为音素时长的似然值,三部分通过w1和w2这两个权值加权到一起,目的是在F式最大的情况下生成时长参数。di为预测的频谱时长,di′为预测的基频时长,d为预测的音素时长。
由拉格朗日:
解上面这个方程,得到最终预测的时长:
其中:
w1和w2值选取不同,得到的效果也就各不相同。
经过了上面的流程之后,频谱,基频,时长等参数得以生成,进而最后的语音合成得以实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王程程,未经王程程许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010046519.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:折射、反射缩聚镜
- 下一篇:一种泥石流监测分析预警装置及泥石流监测方法