[发明专利]语音转换模型及其训练方法、语音转换方法及系统有效

专利信息
申请号: 202110760946.8 申请日: 2021-07-06
公开(公告)号: CN113436609B 公开(公告)日: 2023-03-10
发明(设计)人: 司马华鹏;毛志强;龚雪飞 申请(专利权)人: 南京硅语智能科技有限公司
主分类号: G10L13/08 分类号: G10L13/08;G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L15/26
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 阚梦诗
地址: 210012 江苏省南京市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 转换 模型 及其 训练 方法 系统
【权利要求书】:

1.一种语音转换模型的训练方法,其特征在于,所述语音转换模型包括分类网络模型和变声网络模型,所述方法包括:

使用第一样本数据训练所述分类网络模型,其中,所述第一样本数据包括第一音频及其对应的第一音素标签,所述分类网络模型包括卷积神经网络层和循环神经网络层;

将第二样本数据输入训练好的所述分类网络模型,得到第二音频对应的第二音素标签,其中,所述第二样本数据包括第二音频;

使用所述第二音频及其对应的所述第二音素标签训练所述变声网络模型,其中,所述变声网络模型包括生成器、时域判别器以及频域判别器,所述生成器包含三层CNN模块,然后连接一层LSTM,然后连接四个相互链接的反卷积-卷积残差块,最后通过PQMF模块作为输出;

其中, 在将第二样本数据输入训练好的所述分类网络模型之前,所述方法还包括:

获取第二音频,并根据所述第二音频获取每一帧所述第二音频对应的第二音频特征;

所述使用所述第二音频及其对应的所述第二音素标签训练所述变声网络模型,包括:

使用所述第二音频及其对应的所述第二音素标签,依次交替训练所述生成器、所述时域判别器以及所述频域判别器;

其中,所述使用第一样本数据训练所述分类网络模型包括:

根据每一帧音频及其对应的音素标签构建一个所述分类网络模型,所述分类网络模型包含五层卷积神经网络CNN模块以及两层长短时记忆模块构成,最后连接softmax分类器,将训练语料中每一帧音频对应的梅尔普特征作为输入,将每一音频对应的音素标签作为输出对上述分类网络模型进行训练,通过反向传播,将其训练至收敛为止。

2.根据权利要求1所述的方法,其特征在于,在使用第一样本数据训练所述分类网络模型之前,所述方法还包括:

获取训练语料,其中,所述训练语料包括第一音频及其对应的第一文本;

将所述第一音频转换为第一音频特征;

将所述第一文本转换为第一音素,并根据所述第一音频的时长,将所述第一音频特征与所述第一音素进行对齐,得到每一帧所述第一音频特征对应的音素标签;其中,对齐后的所述第一音素的时长与所述第一音频特征的时长一致;

根据所述第一音频和所述第一文本的对齐关系,以及所述第一音素的时长信息,确定每一帧所述第一音频对应的第一音素标签,其中,所述第一音素标签用于标识所述第一音素。

3.根据权利要求2所述的方法,其特征在于,所述将所述第一文本转换为所述第一音素,包括:

对所述第一文本进行正则化处理,以将所述第一文本中包含的数字和/或字母和/或符号转化为文字;

将经过正则化处理的所述第一文本转换为第一拼音;

根据拼音与音素映射表,将所述第一拼音转换为所述第一音素。

4.根据权利要求1所述的方法,其特征在于,所述使用第一样本数据训练所述分类网络模型,包括:

将每一帧所述第一音频对应的第一音频特征输入所述分类网络模型,然后输出音素标签,通过反向传播训练将所述分类网络训练至收敛。

5.根据权利要求1所述的方法,其特征在于,所述获取每一帧所述第二音频对应的第二音频特征之后,所述方法还包括:

将所述第二音频特征输入训练后的所述分类网络模型,得到每一帧所述第二音频对应的所述第二音素标签,其中,所述第二音素标签用于标识所述第二音素。

6.根据权利要求5所述的方法,其特征在于,所述使用所述第二音频及其对应的所述第二音素标签训练所述变声网络模型,包括:

将每一帧所述第二音频及其对应的所述第二音素标签输入所述变声网络模型,然后输出对应的音频,通过反向传播训练将所述变声网络模型训练至收敛。

7.根据权利要求1所述的方法,其特征在于,所述使用所述第二音频及其对应的所述第二音素标签,依次交替训练所述生成器、所述时域判别器以及所述频域判别器,包括:

将所述第二音素标签对应的所述第二音频设定为真音频,将所述生成器根据所述第二音素标签输出的音频设定为假音频,使用所述真音频和所述假音频依次交替训练所述时域判别器和所述频域判别器。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京硅语智能科技有限公司,未经南京硅语智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110760946.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top