[发明专利]一种合成语音自然度的提升方法在审
申请号: | 201410828928.9 | 申请日: | 2014-12-26 |
公开(公告)号: | CN104485099A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 高丽;凌震华;陈凌辉 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 合成 语音 自然 提升 方法 | ||
1.一种合成语音自然度的提升方法,其特征在于,该方法包括:
构建一个基于隐马尔科夫模型HMM的语音合成系统,并基于该语音合成系统及自然录音获得合成语音;
分别提取该合成语音及自然录音的基频特征,并进行高斯双向联想贮存器GBAM模型训练;
利用训练好的GBAM模型,将合成语音的基频特征向自然录音的基频特征进行转换;
结合频谱和转换后的基频特征,利用STRAIGHT合成最终的语音。
2.根据权利要求1所述的方法,其特征在于,提取的基频特征包括:长度规整的对数F0向量FV和定量目标逼近模型qTA参数;
其中,提取FV包括:根据音节的边界对每句话进行音节切分,再检测每个音节的浊音段边界;然后,基于声学建模,对每个音节内浊音段的基频取对数,并将其规整到M个点,获得FV,表示为F=[f1,f2,...,fM]T;
提取qTA参数包括:利用FV来提取qTA参数,将每个音节的浊音段作为基础单元来提取qTA参数,每个音节的qTA参数表示为T=[f0,s,h,λ]T;其中,f0为每个音节的初始状态,s与h分别表示音高目标的斜率和高度,λ表示基频逼近音高目标的速度。
3.根据权利要求1或2所述的方法,其特征在于,所述进行高斯双向联想贮存器GBAM模型训练包括:
预测合成语的基频特征x的每个子空间的类高斯联合分布P(x,y),然后基于最大似然ML准则,利用比较分歧算法CD最优化权重矩阵W,表示为:
其中,y表示自然录音的基频特征,表示配分函数,E(x,y)表示GBAM模型的能量函数;C是精度矩阵,表示为:
其中,Σ是[xT,yT]T的对角协方差矩阵,WT为权重矩阵W的转置;如果C为正定矩阵,则GBAM等价于一个高斯分布。
4.根据权利要求1或2所述的方法,其特征在于,所述利用训练好的GBAM模型,将合成语音的基频特征向自然录音的基频特征进行转换包括:
应用贝叶斯理论计算获得合成语音的基频特征时自然录音的基频特征的条件分布,表示为:
其中,表示训练好的GBAM模型预测的最优权重矩阵;表示高斯分布;
通过最大化条件概率完成合成语音的基频特征向自然录音的基频特征的转换,表示为:
5.根据权利要求4所述的方法,其特征在于,
基于训练好的GBAM模型分别对基频特征中的FV与qTA参数进行转换,记为GBAM-FV与GBAM-qTA;
对于GBAM-FV,最终的输出基频曲线由转换得到的FV直接进行反规整得到;
对于GBAM-qTA,利用转换得到的qTA参数重新构造FV;然后,将该FV进行反规整到真实的时长;再将提取该qTA参数时的残差与获得的真实时长相加得到最终的输出基频曲线。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410828928.9/1.html,转载请声明来源钻瓜专利网。