[发明专利]基于域分离的语音转换模型的训练方法及装置在审
申请号: | 202011509341.3 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112634920A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 陈闽川;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L21/013 | 分类号: | G10L21/013;G10L25/24;G10L19/16 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 涂年影 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分离 语音 转换 模型 训练 方法 装置 | ||
本发明公开了一种基于域分离的语音转换模型的训练方法及装置,该方法包括:接收训练语音并对训练语音进行特征提取,得到训练语音的梅尔频率倒谱系数;将梅尔频率倒谱系数分别输入到内容编码器和音色编码器中,得到音素特征向量和音色特征向量;分别对音素特征向量、音色特征向量进行分类处理,得到第一分类误差和第二分类误差;将音素特征向量、音色特征向量进行拼接后输入到解码器中,得到重构误差;根据第一分类误差、第二分类误差、重构误差计算语音转换模型的整体损失以对语音转换模型进行更新。本发明基于语音合成技术,通过采用域分离技术对语音转换模型进行训练,不仅能将非平衡语料进行完整的语音转换,而且提高了语音转换准确率。
技术领域
本发明涉及语音语义技术,尤其涉及一种基于域分离的语音转换模型的训练方法及装置。
背景技术
语音转换为用于将A说话人的语音转换成以B说话人的声音来输出A说话人的语音中内容。语音转换不仅可以用在语音合成的后端,还可以用于说话人身份保密,影视作品配音等方面。现有技术中,实现语音转换的方法包括:基于生成式对抗网络、变分自编码器、音素后验图、隐马尔科夫模型等,但是现有技术中训练后的语音转换模型在对存在非平衡语料的音频进行语音转换时,无法将该音频进行完整的语音转换,且该音频转换完成后,得到音频与目标说话者音色的相似度不高。
发明内容
针对上述技术问题,本发明实施例提供了一种基于域分离的语音转换模型的训练方法及装置,通过域分离技术对语音转换模型进行训练,使得训练后的语音转换模型不仅能将非平衡语料进行完整的语音转换,而且提高了语音转换准确率。
第一方面,本发明实施例提供了一种基于域分离的语音转换模型的训练方法,其包括:
接收预设的训练语音并对所述训练语音进行特征提取,得到所述训练语音的梅尔频率倒谱系数;
将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中,得到所述训练语音的音素特征向量和音色特征向量;
根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理,得到第一分类误差和第二分类误差;
将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中,得到所述梅尔频率倒谱系数的重构误差;
根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。
第二方面,本发明实施例提供了一种基于域分离的语音转换模型的训练装置,其包括:
特征提取单元,用于接收预设的训练语音并对所述训练语音进行特征提取,得到所述训练语音的梅尔频率倒谱系数;
第一输入单元,用于将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中,得到所述训练语音的音素特征向量和音色特征向量;
第一分类单元,用于根据预设的分类规则分别所述音素特征向量、所述音色特征向量进行分类处理,得到第一分类误差和第二分类误差;
拼接单元,用于将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中,得到所述梅尔频率倒谱系数的重构误差;
更新单元,用于根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。
第三方面,本发明实施例又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于域分离的语音转换模型的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011509341.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种梯形低聚物的合成方法
- 下一篇:基于数字频域补偿的宽带时域波束成形方法