[发明专利]一种韵律迁移语音合成方法和系统在审
申请号: | 202310051573.6 | 申请日: | 2023-02-02 |
公开(公告)号: | CN115910026A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 柯登峰;胡睿欣;姚文翰;罗琪;舒文涛;王运峰 | 申请(专利权)人: | 澳克多普有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 姜有保 |
地址: | 518116 广东省深圳市龙岗*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 韵律 迁移 语音 合成 方法 系统 | ||
本发明涉及语音合成技术领域,具体公开了一种韵律迁移语音合成方法和系统,包括获取具有文本标注及说话人标签的中文语音数据;对中文语音数据及其对应的文本数据进行预处理,以获得音素序列、帧级别梅尔频谱、音素级别时长、音素级别音高、音素级别能量;构建基于韵律迁移的语音合成模型,将说话人标签、音素序列、帧级别梅尔频谱、音素级别时长、音素级别音高、音素级别能量输入语音合成模型,从而获得说话人分类结果和预测值;基于所述帧级别梅尔频谱、音素级别时长、音素级别音高和音素级别能量,以及所述说话人分类结果和预测值训练语音合成模型,以获得定制化语音合成模型;基于定制化语音合成模型合成未知说话人语音。
技术领域
本发明涉及语音合成技术领域,具体涉及一种韵律迁移语音合成方法和系统。
背景技术
随着语音合成模型的发展,合成的语音质量也在不断地提升,说话人的相似度越来越高;但是语音合成存在1个文本可以映射多条语音的1对多问题;简单的合成目标说话人的声音已经不能够使我们满足,我们需要更多的方法和手段去调控整个模型,让合成的语音更加的可以被控制。
基于韵律迁移的语音合成应运而生,通过输入语音的形式,迫使模型去合成符合当前韵律形式的语音而不是随意的合成一种学习过的韵律;过去的韵律迁移的语音合成模型往往使用单一的声学特征如梅尔频谱去预测韵律信息,但这种方式的输入特征并不充分,其并未考虑不同说话人的音高和能量不同,存在合成的语音效果不高的缺陷。
发明内容
针对上述问题,本发明的一个目的是提供一种韵律迁移语音合成方法,该方法使用多个输入特征(包括梅尔频谱、音高信息、能量信息、说话人特征)来预测韵律,并且辅以梯度反转的说话人分类器,来剔除梅尔频谱编码后的特征中说话人信息的含量,从而加强了目标说话人迁移的效果。
本发明的第二个目的是提供一种韵律迁移语音合成系统。
本发明所采用的第一个技术方案是:一种韵律迁移语音合成方法,包括以下步骤:
S100:获取具有文本标注及说话人标签的中文语音数据;对所述中文语音数据及其对应的文本数据进行预处理,以获得音素序列、帧级别梅尔频谱、音素级别时长、音素级别音高、音素级别能量;
S200:构建基于韵律迁移的语音合成模型,所述基于韵律迁移的语音合成模型包括说话人特征表、音素特征表、韵律编码器、条件编码器、自适应预测器组和解码器,所述韵律编码器包括线性层、梯度反转层和说话人分类器;将所述说话人标签、音素序列、帧级别梅尔频谱、音素级别时长、音素级别音高、音素级别能量输入所述基于韵律迁移的语音合成模型,从而获得说话人分类结果、预测梅尔频谱、预测时长、预测能量和预测音高;
S300:基于所述帧级别梅尔频谱、音素级别时长、音素级别音高和音素级别能量,以及所述说话人分类结果、预测梅尔频谱、预测时长、预测能量和预测音高训练所述基于韵律迁移的语音合成模型,以获得定制化语音合成模型;
S400:获取未知说话人的文本,将未知说话人的文本输入所述定制化语音合成模型,以获得未知说话人的预测梅尔频谱;基于所述未知说话人的预测梅尔频谱合成未知说话人语音。
优选地,所述步骤S100的预处理包括以下子步骤:
S110:将所述文本数据转换为音素序列;
S120:将所述音素序列和对应的中文语音数据送入对齐模型,从而获得音素级别时长;
S130:对所述中文语音数据进行音高的预测,获得帧级别音高;基于所述音素级别时长对所述帧级别音高进行平均,从而获得音素级别音高;
S140:将中文语音数据的语音波形通过短时傅立叶变换以及梅尔频谱转换,以生成帧级别梅尔频谱以及帧级别能量;基于所述音素级别时长对所述帧级别能量进行平均,从而获得音素级别能量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于澳克多普有限公司,未经澳克多普有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310051573.6/2.html,转载请声明来源钻瓜专利网。