[发明专利]语音转换模型及其训练方法、语音转换方法及系统有效
申请号: | 202110760946.8 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113436609B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 司马华鹏;毛志强;龚雪飞 | 申请(专利权)人: | 南京硅语智能科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L15/26 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 阚梦诗 |
地址: | 210012 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 转换 模型 及其 训练 方法 系统 | ||
1.一种语音转换模型的训练方法,其特征在于,所述语音转换模型包括分类网络模型和变声网络模型,所述方法包括:
使用第一样本数据训练所述分类网络模型,其中,所述第一样本数据包括第一音频及其对应的第一音素标签,所述分类网络模型包括卷积神经网络层和循环神经网络层;
将第二样本数据输入训练好的所述分类网络模型,得到第二音频对应的第二音素标签,其中,所述第二样本数据包括第二音频;
使用所述第二音频及其对应的所述第二音素标签训练所述变声网络模型,其中,所述变声网络模型包括生成器、时域判别器以及频域判别器,所述生成器包含三层CNN模块,然后连接一层LSTM,然后连接四个相互链接的反卷积-卷积残差块,最后通过PQMF模块作为输出;
其中, 在将第二样本数据输入训练好的所述分类网络模型之前,所述方法还包括:
获取第二音频,并根据所述第二音频获取每一帧所述第二音频对应的第二音频特征;
所述使用所述第二音频及其对应的所述第二音素标签训练所述变声网络模型,包括:
使用所述第二音频及其对应的所述第二音素标签,依次交替训练所述生成器、所述时域判别器以及所述频域判别器;
其中,所述使用第一样本数据训练所述分类网络模型包括:
根据每一帧音频及其对应的音素标签构建一个所述分类网络模型,所述分类网络模型包含五层卷积神经网络CNN模块以及两层长短时记忆模块构成,最后连接softmax分类器,将训练语料中每一帧音频对应的梅尔普特征作为输入,将每一音频对应的音素标签作为输出对上述分类网络模型进行训练,通过反向传播,将其训练至收敛为止。
2.根据权利要求1所述的方法,其特征在于,在使用第一样本数据训练所述分类网络模型之前,所述方法还包括:
获取训练语料,其中,所述训练语料包括第一音频及其对应的第一文本;
将所述第一音频转换为第一音频特征;
将所述第一文本转换为第一音素,并根据所述第一音频的时长,将所述第一音频特征与所述第一音素进行对齐,得到每一帧所述第一音频特征对应的音素标签;其中,对齐后的所述第一音素的时长与所述第一音频特征的时长一致;
根据所述第一音频和所述第一文本的对齐关系,以及所述第一音素的时长信息,确定每一帧所述第一音频对应的第一音素标签,其中,所述第一音素标签用于标识所述第一音素。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一文本转换为所述第一音素,包括:
对所述第一文本进行正则化处理,以将所述第一文本中包含的数字和/或字母和/或符号转化为文字;
将经过正则化处理的所述第一文本转换为第一拼音;
根据拼音与音素映射表,将所述第一拼音转换为所述第一音素。
4.根据权利要求1所述的方法,其特征在于,所述使用第一样本数据训练所述分类网络模型,包括:
将每一帧所述第一音频对应的第一音频特征输入所述分类网络模型,然后输出音素标签,通过反向传播训练将所述分类网络训练至收敛。
5.根据权利要求1所述的方法,其特征在于,所述获取每一帧所述第二音频对应的第二音频特征之后,所述方法还包括:
将所述第二音频特征输入训练后的所述分类网络模型,得到每一帧所述第二音频对应的所述第二音素标签,其中,所述第二音素标签用于标识所述第二音素。
6.根据权利要求5所述的方法,其特征在于,所述使用所述第二音频及其对应的所述第二音素标签训练所述变声网络模型,包括:
将每一帧所述第二音频及其对应的所述第二音素标签输入所述变声网络模型,然后输出对应的音频,通过反向传播训练将所述变声网络模型训练至收敛。
7.根据权利要求1所述的方法,其特征在于,所述使用所述第二音频及其对应的所述第二音素标签,依次交替训练所述生成器、所述时域判别器以及所述频域判别器,包括:
将所述第二音素标签对应的所述第二音频设定为真音频,将所述生成器根据所述第二音素标签输出的音频设定为假音频,使用所述真音频和所述假音频依次交替训练所述时域判别器和所述频域判别器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京硅语智能科技有限公司,未经南京硅语智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110760946.8/1.html,转载请声明来源钻瓜专利网。