[发明专利]一种语音转换模型的训练方法、装置、电子设备及介质有效

申请号：	202110950483.1	申请日：	2021-08-18
公开（公告）号：	CN113689867B	公开（公告）日：	2022-06-28
发明（设计）人：	王俊超;陈怿翔;康永国	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G10L21/007	分类号：	G10L21/007;G06N3/04;G06N3/08;G10L19/04;G10L15/16;G10L15/02;G10L15/06;G10L25/30
代理公司：	北京品源专利代理有限公司 11332	代理人：	黄玉霞
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音转换模型训练方法装置电子设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音转换模型的训练方法，所述方法包括：

将原始的声学特征划分为N个声学特征单元；其中，N为大于1的自然数；将所述N个声学特征单元中的一个或者多个声学特征进行掩蔽，得到掩蔽后的声学特征单元；将所述掩蔽后的声学特征单元输入至神经网络模型，得到所述神经网络模型输出的特征序列；将所述神经网络模型输出的特征序列作为预训练模型输出的隐特征；

将所述隐特征输入至语音转换模型，得到所述语音转换模型输出的预测的声学特征；

基于所述原始的声学特征和所述预测的声学特征对待训练的语音转换模型进行训练。

2.根据权利要求1所述的方法，其中，所述基于所述原始的声学特征和所述预测的声学特征对待训练的语音转换模型进行训练，包括：

基于所述原始的声学特征和所述预测的声学特征计算所述待训练的语音转换模型针对所述语音的损失值；

根据所述待训练的语音转换模型针对所述语音的损失值对所述待训练的语音转换模型中的模型参数进行调整。

3.根据权利要求1所述的方法，所述方法还包括：

将第一用户针对第一语音的原始的声学特征和第二用户针对第二语音的原始的声学特征分别输入至训练好的语音转换模型，通过所述语音转换模型得到由所述第一语音和所述第二语音转换后的目标语音；其中，所述目标语音包括所述第一语音的内容信息和所述第二语音的音色信息。

4.根据权利要求3所述的方法，其中，所述将第一用户针对第一语音的原始的声学特征和第二用户针对第二语音的原始的声学特征分别输入至训练好的语音转换模型，通过所述语音转换模型得到由所述第一语音和所述第二语音转换后的目标语音，包括：

将所述第一用户针对所述第一语音的原始的声学特征输入至训练好的预训练模型，得到所述预训练模型输出的隐特征；

将所述预训练模型输出的隐特征和所述第二用户针对所述第二语音的原始的声学特征分别输入至训练好的语音转换模型，得到所述语音转换模型输出的预测的声学特征；

将所述语音转换模型输出的预测的声学特征输入至声码器，得到所述声码器输出的所述目标语音。

5.一种语音转换模型的训练装置，所述装置包括：预训练模块、语音转换模块和训练模块；其中，

所述预训练模块，用于将原始的声学特征划分为N个声学特征单元；其中，N为大于1的自然数；将所述N个声学特征单元中的一个或者多个声学特征进行掩蔽，得到掩蔽后的声学特征单元；将所述掩蔽后的声学特征单元输入至神经网络模型，得到所述神经网络模型输出的特征序列；将所述神经网络模型输出的特征序列作为预训练模型输出的隐特征；

所述语音转换模块，用于将所述隐特征输入至语音转换模型，得到所述语音转换模型输出的预测的声学特征；

所述训练模块，用于基于所述原始的声学特征和所述预测的声学特征对待训练的语音转换模型进行训练。

6.根据权利要求5所述的装置，所述训练模块，具体用于基于所述原始的声学特征和所述预测的声学特征计算所述待训练的语音转换模型针对所述语音的损失值；根据所述待训练的语音转换模型针对所述语音的损失值对所述待训练的语音转换模型中的模型参数进行调整。

7.根据权利要求5所述的装置，所述装置还包括：预测模块，用于将第一用户针对第一语音的原始的声学特征和第二用户针对第二语音的原始的声学特征分别输入至训练好的语音转换模型，通过所述语音转换模型得到由所述第一语音和所述第二语音转换后的目标语音；其中，所述目标语音包括所述第一语音的内容信息和所述第二语音的音色信息。

8.根据权利要求7所述的装置，所述预测模块，具体用于将所述第一用户针对所述第一语音的原始的声学特征输入至训练好的预训练模型，得到所述预训练模型输出的隐特征；将所述预训练模型输出的隐特征和所述第二用户针对所述第二语音的原始的声学特征分别输入至训练好的语音转换模型，得到所述语音转换模型输出的预测的声学特征；将所述语音转换模型输出的预测的声学特征输入至声码器，得到所述声码器输出的所述目标语音。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司，未经北京百度网讯科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110950483.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种铁路扣件缺陷检测方法和装置
下一篇：一种语音转换模型的训练方法、装置、电子设备及介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语音转换模型的训练方法、装置、电子设备及介质有效

专利文献下载