[发明专利]基于声纹编码器的语音转换方法、装置、设备及介质在审
申请号: | 202210669839.9 | 申请日: | 2022-06-14 |
公开(公告)号: | CN115064177A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 王紫烟;何金鑫;孙宇嘉;梁小明;蒋迎平 | 申请(专利权)人: | 中国第一汽车股份有限公司 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L21/0208;G10L25/24;G10L25/30;G10L25/60;G10L19/16 |
代理公司: | 北京远智汇知识产权代理有限公司 11659 | 代理人: | 刘欣 |
地址: | 130011 吉林省长*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 声纹 编码器 语音 转换 方法 装置 设备 介质 | ||
1.一种基于声纹编码器的语音转换方法,其特征在于,所述方法包括:
获取第一个体的音频数据;
获取第二个体的声纹特征;其中,所述第二个体的声纹特征是采用预先训练的声纹编码器输出得到的;
将所述第一个体的音频数据和所述声纹特征输入至预先训练的语音转换模型,以供所述语音转换模型基于所述第一个体的音频数据和所述声纹特征的编码结果,得到由第一个体到第二个体的语音转换结果。
2.根据权利要求1所述的方法,其特征在于,将所述第一个体的音频数据和所述声纹特征输入至预先训练的语音转换模型,以供所述语音转换模型基于所述第一个体的音频数据和所述声纹特征的编码结果,得到由第一个体到第二个体的语音转换结果,包括:
将所述第一个体的音频数据和所述声纹特征输入至预先训练的语音转换模型的混合编码器,以对所述第一个体的音频数据和所述声纹特征进行混合,得到对抗网络输入数据;
将所述对抗网络输入数据输入至预设对抗网络,得到第二个体的梅尔特征;
根据所述第二个体的梅尔特征对所述第一个体的音频数据的语义信息进行转换,得到语音转换结果。
3.根据权利要求2所述的方法,其特征在于,所述对抗网络包括至少一个生成器和至少一个判别器;
所述生成器用于生成第二个体的梅尔特征;
所述判别器用于根据所述第一个体的音频数据和所述声纹特征对所述第二个体的梅尔特征进行验证。
4.根据权利要求2所述的方法,其特征在于,根据所述第二个体的梅尔特征对所述第一个体的音频数据的语义信息进行转换,得到语音转换结果,包括:
利用声码器模型对所述第二个体的梅尔特征进行转换,得到音频时域信号。
5.根据权利要求1所述的方法,其特征在于,所述语音转换模型的训练过程,包括:
获取预设数量的音频训练数据,得到音频训练数据集;
从所述音频训练数据集中构建输入信息对;其中,所述每个输入信息对由一个第一个体的音频数据和一个第二个体的音频数据构成;所述第一个体的音频数据和所述第二个体的音频数据具有相同文本内容;
基于所述输入信息训练语音转换模型。
6.根据权利要求1所述的方法,其特征在于,获取第二个体的声纹特征,包括:
获取第二个体的音频数据;
对所述第二个体的音频数据进行降噪和静默片段去除的预处理,得到预处理结果;
将所述预处理结果输入至预先训练的声纹编码器,得到所述第二个体的声纹特征;
或者,包括:
获取第二个体的身份信息;
根据所述第二个体的身份信息,对已存储的声纹特征进行匹配;其中,所述已存储的声纹特征是与身份信息进行关联存储的;
若匹配成功,则将匹配成功的声纹信息确定为第二个体的声纹特征。
7.根据权利要求1所述的方法,其特征在于,在得到由第一个体到第二个体的语音转换结果之后,所述方法还包括:
获取所述语音转换结果的音频内容评价结果、声纹特征评价结果以及流畅度评价结果中的至少一种,得到所述语音转换结果的综合分值;
根据所述综合分值对所述预先训练的语音转换模型进行调整。
8.一种基于声纹编码器的语音转换装置,其特征在于,所述装置包括:
音频数据获取模块,用于获取第一个体的音频数据;
声纹特征获取模块,用于获取第二个体的声纹特征;其中,所述第二个体的声纹特征是采用预先训练的声纹编码器输出得到的;
语音转换结果生成模块,用于将所述第一个体的音频数据和所述声纹特征输入至预先训练的语音转换模型,以供所述语音转换模型基于所述第一个体的音频数据和所述声纹特征的编码结果,得到由第一个体到第二个体的语音转换结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国第一汽车股份有限公司,未经中国第一汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210669839.9/1.html,转载请声明来源钻瓜专利网。