[发明专利]语音生成模型的训练方法、装置、电子设备及存储介质在审
申请号: | 202210136245.1 | 申请日: | 2022-02-15 |
公开(公告)号: | CN114420085A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 涂必超 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L25/27 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 刘燕 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 生成 模型 训练 方法 装置 电子设备 存储 介质 | ||
1.一种语音生成模型的训练方法,所述语音生成模型包括语音合成模型和声码器,其特征在于,包括:
获取基础训练样本,所述基础训练样本包括多个音频信号,及每个所述音频信号均对应文本数据;所述多个音频信号包括参考用户的第一音频信号和目标用户的第二音频信号;
对所述第一音频信号及所述第一音频信号对应的文本数据进行预处理;
根据处理后的音频信号及处理后的文本数据对初始语音合成模型和初始声码器进行训练,以得到中间语音合成模型和目标声码器;
根据所述第一音频信号、所述第一音频信号对应的文本数据、所述第二音频信号及所述第二音频信号对应的文本数据对所述中间语音合成模型进行训练,以得到目标语音合成模型。
2.根据权利要求1所述的方法,其特征在于,所述第一音频信号有多个,所述对所述第一音频信号及所述第一音频信号对应的文本数据进行预处理,包括:
对多个第一音频信号中每个第一音频信号进行时频变换,以得到所述多个第一音频信号的频域信号;
对第一音频信号A的频域信号和第一音频信号B的频域信号,执行如下操作:
将所述第一音频信号A的频域信号和第一音频信号B的频域信号进行叠加,以得到叠加后的频域信号;其中,所述第一音频信号A和所述第一音频信号B为所述多个第一音频信号中的任意两个;
对所述叠加后的频域信号进行频时变换,以得到所述处理后的音频信号;
将所述第一音频信号A对应的文本数据和所述第一音频信号B对应的文本数据进行组合,以得到所述处理后的文本数据。
3.根据权利要求1所述的方法,其特征在于,所述第一音频信号有多个,所述对所述第一音频信号及所述第一音频信号对应的文本数据进行预处理,包括:
对多个第一音频信号对应的多个文本数据进行分组,以得到多组文本数据,同一组的文本数据对应的音频信号属于同一所述参考用户;
对所述每组文本数据中的每个文本数据进行分词,以得到所述每个文本数据的多个第一分词;
根据所述每个文本数据的多个第一分词对所述每个本文数据对应的音频信号进行分段处理,以得到多个音频片段;所述多个音频片段与所述每个文本数据的多个第一分词对应;
根据所述每组文本数据的多个第一分词生成所述处理后的文本数据;
根据所述每组文本数据的多个第一分词中的每个分词在所述处理后的文本数据中的位置信息,对所述每组文本数据中构成所述处理后的文本数据的分词对应的音频片段进行拼接,以得到所述处理后的音频信号。
4.根据权利要求1所述的方法,其特征在于,所述第一音频信号有多个,所述对所述第一音频信号及所述第一音频信号对应的文本数据进行预处理,包括:
对多个第一音频信号进行分组,以得到多组第一音频信号;同一组的第一音频信号中的每组属于同一所述参考用户;
对每组中所有第一音频信号剔除预设频率的信号,以得到多个所述处理后的音频信号;其中,对于存在至少两个第一音频信号的一组中任意两个第一音频信号所剔除的信号的频率不相同;
多个所述处理后的文本数据包括所述多个第一音频信号对应的多个文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210136245.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金属加工用多功能机床设备
- 下一篇:一种亚麻籽粉的制备方法