[发明专利]基于域分离的语音转换模型的训练方法及装置在审
申请号: | 202011509341.3 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112634920A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 陈闽川;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L21/013 | 分类号: | G10L21/013;G10L25/24;G10L19/16 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 涂年影 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分离 语音 转换 模型 训练 方法 装置 | ||
1.一种基于域分离的语音转换模型的训练方法,其特征在于,包括以下步骤:
接收预设的训练语音并对所述训练语音进行特征提取,得到所述训练语音的梅尔频率倒谱系数;
将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中,得到所述训练语音的音素特征向量和音色特征向量;
根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理,得到第一分类误差和第二分类误差;
将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中,得到所述梅尔频率倒谱系数的重构误差;
根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。
2.根据权利要求1所述的基于域分离的语音转换模型的训练方法,其特征在于,所述对所述训练语音进行特征提取,得到所述训练语音的梅尔频率倒谱系数,包括:
获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中,得到所述训练语音的梅尔频谱;
将所述训练语音的梅尔频谱进行倒谱分析,得到所述训练语音的梅尔频率倒谱系数。
3.根据权利要求2所述的基于域分离的语音转换模型的训练方法,其特征在于,所述获取所述训练语音的频谱,包括:
对所述训练语音进行预处理,得到预处理后的训练语音;
将所述预处理后的训练语音进行快速傅里叶变换,得到所述训练语音的频谱。
4.根据权利要求1所述的基于域分离的语音转换模型的训练方法,其特征在于,所述根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理,得到第一分类误差和第二分类误差,包括:
将所述音素特征向量依次通过预置的梯度反转层、预置的第一分类器中,得到所述第一分类误差;
将所述音色特征向量输入至预置的第二分类器中,得到所述第二分类误差。
5.根据权利要求4所述的基于域分离的语音转换模型的训练方法,其特征在于,所述根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失,包括:
根据弗罗贝尼乌斯范数计算所述音素特征向量与所述音色特征向量的差异损失;
根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失。
6.根据权利要求5所述的基于域分离的语音转换模型的训练方法,其特征在于,所述根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失,包括:
将所述音素特征向量输入到预设的ASR系统中进行音素识别,得到交叉熵损失;
根据所述第一分类误差、所述第二分类误差、所述重构误差、所述差异损失以及所述交叉熵损失计算所述语音转换模型的整体损失。
7.根据权利要求1-6中任意一项所述的基于域分离的语音转换模型的训练方法,其特征在于,所述根据所述整体损失更新所述语音转换模型的网络参数之后,还包括:
若接收到第一说话人的第一音频,获取所述第一音频的梅尔频率倒谱系数;
根据所述音色编码器获取第二说话人中第二音频的音色特征向量并将所述第一音频的梅尔频率倒谱系数输入至所述内容编码器中,得到所述第一音频的音素特征向量;
将所述第一音频的音素特征向量与所述第二音频的音色特征向量拼接后输入到所述解码器,得到所述第二说话人的第一音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011509341.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种梯形低聚物的合成方法
- 下一篇:基于数字频域补偿的宽带时域波束成形方法