[发明专利]一种语音转换模型的训练方法、装置、电子设备及介质有效
申请号: | 202110950483.1 | 申请日: | 2021-08-18 |
公开(公告)号: | CN113689867B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 王俊超;陈怿翔;康永国 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G06N3/04;G06N3/08;G10L19/04;G10L15/16;G10L15/02;G10L15/06;G10L25/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 黄玉霞 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 转换 模型 训练 方法 装置 电子设备 介质 | ||
本公开提供了一种语音转换模型的训练方法、装置、电子设备及介质,涉及人工智能技术领域,尤其涉及语音和深度学习技术。具体实现方案为:将语音的原始的声学特征输入至预训练模型,得到预训练模型输出的隐特征;将隐特征输入至语音转换模型,得到语音转换模型输出的预测的声学特征;基于原始的声学特征和预测的声学特征对待训练的语音转换模型进行训练。本申请实施例可以将隐特征作为语音转换模型的输入预测目标声学特征,使模型学习更充分,应用场景广泛。
技术领域
本公开涉及人工智能技术领域,进一步涉及语音和深度学习技术,尤其是一种语音转换模型的训练方法、装置、电子设备及介质。
背景技术
语音转换在市场上变得越来越受关注,语音转换的目的是将源说话人的语音转为目标说话人的音色,并保持语音的表达内容不变。按照模型所需的语料,语音转换可分为平行语料语音转换和非平行语料语音转换;其中,平行语料语音转换,在录制所需的语料时,需要源说话人和目标说话人录制相同文本的音频。非平行语料语音转换,需要录制目标说话人的若干语音,训练时不需要源说话人的语音,通常的方法有基于音素概率图的方法和自重构的方法。
基于音素概率图的方法,首先将目标说话人的音频通过语音识别模型提取一种表达说话内容的ppg特征,然后通过模型建模ppg特征和音频mel特征的联系。在测试时,源说话人通过语音识别模型提取ppg特征,输入训练好的转换模型,即可得到转换后的特征。基于自重构的方法,总体思路是在训练时通过编码器将特征中的内容信息和音色信息进行解耦,再通过解码器还原信息,进行自重构训练。
人的发音是由许多语音帧组成的,因为人的发音有内在的连续性,相邻的语音帧之间应该彼此存在关联性。由于现有的ppg特征或者模型输入的mel特征帧与帧之间是相互独立的,这就造成了其中的信息相互独立,神经网络模型难以从中学习到帧与帧之间的互相关联性,使模型的学习能力受限。
发明内容
本公开提供了一种语音转换模型的训练方法方法、装置、电子设备以及介质。
第一方面,本申请提供了一种语音转换模型的训练方法,所述方法包括:
将语音的原始的声学特征输入至预训练模型,得到所述预训练模型输出的隐特征;
将所述隐特征输入至语音转换模型,得到所述语音转换模型输出的预测的声学特征;
基于所述原始的声学特征和所述预测的声学特征对待训练的语音转换模型进行训练。
第二方面,本申请提供了一种语音转换模型的训练装置,所述装置包括:预训练模块、语音转换模块和训练模块;其中,
所述预训练模块,用于将语音的原始的声学特征输入至预训练模型,得到所述预训练模型输出的隐特征;
所述语音转换模块,用于将所述隐特征输入至语音转换模型,得到所述语音转换模型输出的预测的声学特征;
所述训练模块,用于基于所述原始的声学特征和所述预测的声学特征对待训练的语音转换模型进行训练。
第三方面,本申请实施例提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本申请任意实施例所述的语音转换模型的训练方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请任意实施例所述的语音转换模型的训练方法。
第五方面,提供了一种计算机程序产品,当所述计算机程序产品被计算机设备执行时实现本申请任意实施例所述的语音转换模型的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110950483.1/2.html,转载请声明来源钻瓜专利网。