[发明专利]基于生成参数听感误差最小化的模型自适应方法无效
申请号: | 200710191077.1 | 申请日: | 2007-12-06 |
公开(公告)号: | CN101178895A | 公开(公告)日: | 2008-05-14 |
发明(设计)人: | 秦龙;凌震华;胡郁;胡国平;吴晓如;刘庆峰;王仁华 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230088安徽省合肥*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 参数 误差 最小化 模型 自适应 方法 | ||
技术领域
本发明涉及语音合成中说话人转换的方法,具体涉及在模型自适应训练过程中,将最小化自适应数据对应生成参数的听感误差作为自适应训练的准则,以满足语音合成的实际要求,提高说话人转换效果的方法。
背景技术
随着语音合成技术的飞速发展,合成语音的音质和自然度都有了很大的提高,人们已经不再满足一个语音合成系统仅可合成单一音色、单一风格的语音的情形。为了使语音合成系统可以合成出多种音色、多种风格的语音,如果使用传统的语音合成技术,则需要录制多个说话人的不同发音风格的音库,然而音库的录制是一个成本非常大且需要很长的时间才能完成的工作。为了实现具有多表现力的语音合成系统,同时又不至于录制更多更大的音库,说话人转换技术被提出和广泛研究。
目前应用较为广泛的说话人转换方法有基于码本映射(Codebook Mapping)的方法和基于混合高斯模型(Gaussian Mixture Model)的方法。码本映射和基于混合高斯模型的说话人转换方法,一般都需要目标说话人的语音数据和原始说话人的语音数据在文本上相对应,这样就可以利用原始说话人与目标说话人的声学参数之间的对应关系,在参数空间建立起由原始说话人到目标说话人之间的一对一的映射。不过,要求文本和目标说话人语音对应增加了实际系统的使用难度。同时,采用这两种方法转换得到的目标说话人的合成语音中,往往普遍的存在频谱不连续的现象,造成了合成语音音质的降低。基于隐马尔可夫模型(HiddenMarkov Model)的方法也是一种较为广泛应用的说话人转换方法。基于隐马尔可夫模型的说话人转换方法,在进行参数生成的时候充分考虑了语音参数的动态特征,可以生成较为平滑的语音频谱,很好的解决合成语音中的不连续现象。但一般的基于隐马尔可夫模型的说话人转换方法,在模型自适应训练过程中是以最大似然准则来估计原始说话人模型到目标说话人模型转换矩阵的,但是,这和语音合成的实际要求并不相同。在语音合成中更希望的是,能够生成和自然语音最为接近的声学参数,以保证合成语音的自然度与音质。
发明的内容
本发明针对现有技术的缺陷,其目的就是为了提供一种用于说话人转换的基于生成参数听感误差最小化的模型自适应方法,以提高说话人转换效果。
本发明的技术方案如下:
基于生成参数听感误差最小化的模型自适应方法,所述的方法包括有以下步骤实现:
(1)利用原始说话人的声学模型和原始说话人模型到目标说话人模型的转换矩阵生成对自适应数据的文本进行合成时使用的声学参数;
(2)利用原始说话人的声学模型和原始说话人模型到目标说话人模型的转换矩阵估计自适应数据的声学参数;根据自适应数据对应的文本以及相关的上下文信息以及原始说话人的声学模型和原始说话人模型到目标说话人模型的转换矩阵,估计与自适应数据的声学参数各帧相对应的用于合成语音的估计的声学参数;
(3)综合出自适应数据的声学参数与估计的声学参数之间的听感误差计算公式;
(4)以听感误差计算公式计算由自适应数据文本依据原始说话人的声学模型和原始说话人模型到目标说话人模型的转换矩阵估计生成的声学参数与自适应数据声学参数之间的听感误差;
(5)以最大似然线性回归算法得到的转换矩阵为初值,利用梯度下降算法,通过逐次迭代的方法,更新原始说话人模型到目标说话人模型的转换矩阵,以保证每次迭代后自适应数据对应的生成参数听感误差的逐渐降低;得到最小化听感误差;
(6)最终将得到的转换矩阵应用于原始说话人的声学模型,实现基于生成参数听感误差最小化的模型自适应过程。
基于生成参数听感误差最小化的模型自适应方法,所述的上述步骤(1)中是利用自适应数据,计算原始说话人到目标说话人的转换矩阵。
基于生成参数听感误差最小化的模型自适应方法,所述的原始说话人到目标说话人的转换矩阵,由最大似然线性回归模型自适应算法计算得出。
基于生成参数听感误差最小化的模型自适应方法,所述的上述步骤(2)中自适应数据的声学参数,采用下式得出:
C=[c1,c2,...,cT]
其中C为自适应数据的声学参数,T为总帧数;所述的步骤(2)中估计的声学参数,采用下式得出:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710191077.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:人脸和虹膜混合识别的新方法-识别层融合
- 下一篇:承压式太阳能供热系统