[发明专利]一种基于音色克隆的语音合成方法、装置及电子设备有效
申请号: | 202011211468.7 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112037755B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 张彤彤 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/033 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 乔东峰 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 音色 克隆 语音 合成 方法 装置 电子设备 | ||
1.一种基于音色克隆的语音合成方法,其特征在于,所述方法包括:
通过开源语料训练TTS基础模型;
通过目标音色语料以微调finetune的方式训练所述基础模型,得到微调模型;
根据变量语料和所述微调模型生成目标音色的变量语音;
根据所述变量语音和固定语音合成目标音色语音;
其中,所述固定语音是对所有用户通用的语音,变量语音是对单个用户需要改变的语音;所述固定语音和所述变量语音合成与用户进行语音交互的预设话术;所述变量语料是所述变量语音对应的语料。
2.根据权利要求1所述的方法,其特征在于,所述通过开源语料训练TTS基础模型之前,所述方法还包括:
获取第一性别的开源语料;
所述通过目标音色语料以微调finetune的方式训练所述基础模型之前,所述方法还包括:
获取第一性别的目标音色语料。
3.根据权利要求1所述的方法,其特征在于,所述根据变量语料和所述微调模型生成目标音色的变量语音包括:
将变量语料输入所述微调模型中得到声音频谱的声学特征;
通过预设声码器基于所述声学特征生成变量音频,得到所述目标音色的变量语音。
4.根据权利要求3所述的方法,其特征在于,所述通过预设声码器基于所述声学特征生成变量音频之前,所述方法还包括:
通过所述目标音色语料训练所述预设声码器。
5.根据权利要求1所述的方法,其特征在于,所述TTS基础模型为Transformer TTS网络。
6.根据权利要求3所述的方法,其特征在于,所述预设声码器为WaveGAN声码器。
7.根据权利要求3所述的方法,其特征在于,所述声学特征为Fbank特征。
8.一种基于音色克隆的语音合成装置,其特征在于,所述装置包括:
第一训练模块,用于通过开源语料训练TTS基础模型;
第二训练模块,用于通过目标音色语料以微调finetune的方式训练所述基础模型,得到微调模型;
生成模块,用于根据变量语料和所述微调模型生成目标音色的变量语音;
合成模块,用于根据所述变量语音和固定语音合成目标音色语音;
其中,所述固定语音是对所有用户通用的语音,变量语音是对单个用户需要改变的语音;所述固定语音和所述变量语音合成与用户进行语音交互的预设话术;所述变量语料是所述变量语音对应的语料。
9.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1-7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211468.7/1.html,转载请声明来源钻瓜专利网。