[发明专利]针对病理嗓音的语音转换方法、装置和存储介质有效
申请号: | 202211226889.6 | 申请日: | 2022-10-09 |
公开(公告)号: | CN115294970B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 吴迪;楚明航;杨梦涛;马瑶瑶;王靖;徐超;范智玮;张晓俊;陶智 | 申请(专利权)人: | 苏州大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L19/02;G10L25/51 |
代理公司: | 苏州谨和知识产权代理事务所(特殊普通合伙) 32295 | 代理人: | 唐静芳 |
地址: | 215006 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 病理 嗓音 语音 转换 方法 装置 存储 介质 | ||
1.一种针对病理嗓音的语音转换方法,其特征在于,所述方法包括:
获取训练样本,所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音;
对于每个样本病理嗓音,获取所述样本病理嗓音的样本梅尔谱图;
对于每个样本梅尔谱图,将所述样本梅尔谱图输入至F0提取网络,通过所述F0提取网络提取所述样本病理嗓音的样本基频;
获取风格向量;
将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器,通过所述生成器输出转换后的各个样本梅尔谱图;所述生成器包括编码器和解码器,残差块用于解码器中作为网络的主要部分,自适应实例归一化函数被用作解码器的归一化层;
根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪;
根据所述判别器的各个判别结果训练所述生成器和所述判别器,训练后的所述生成器用于对目标病理嗓音进行嗓音转换;
所述获取风格向量,包括:
获取随机采样的高斯分布向量;将所述高斯分布向量输入至映射网络,通过所述映射网络生成所述风格向量;所述映射网络有多个分支输出,分支的数量取决于域的数量;所有领域的模型权重参数在映射网络的前四层共享,后四层用于生成特定领域的样式向量;
或者,
获取参考梅尔谱图;将所述参考梅尔谱图输入至说话人编码器,通过所述说话人编码器生成所述风格向量;所述说话人编码器通过四个残差块用作说话人编码器的共享层,通过特定领域的全连接层生成不同说话人领域的风格向量;
所述根据所述判别器的各个判别结果训练所述生成器,包括:
获取第一损失因子,所述第一损失因子包括:对抗损失因子、对抗源损失因子、风格重构损失因子、风格多样化损失因子、F0一致性损失因子、语音一致性损失因子、范数一致性损失因子和循环一致性损失因子;
根据所述第一损失因子和所述各个判别结果训练所述生成器;
所述风格多样化损失除了最大化生成样本之间的平均绝对误差 MAE之外,还最大化使用不同样式代码生成的样本之间的 F0 特征的 MAE,所述风格多样化损失的损失函数如下:
其中是来自域的两个随机采样的样式代码,是 F0 提取网络的卷积层的输出;是生成器接收输入的梅尔谱图 X 和样式向量通过对抗性损失学习生成的新的梅尔谱图;是生成器接收输入的梅尔谱图 X 和样式向量通过对抗性损失学习生成的新的梅尔谱图;E(·)表示生成器的编码器的输出;
F0 一致性损失被添加到 F0 提取网络提供的归一化 F0 曲线中,以产生 F0 一致结果;对于输入所述F0 提取网络的梅尔谱图 X,F(X) 为 X 的每一帧提供以赫兹为单位的绝对 F0 值,F(X) 的绝对值归一化为其时间平均值,记为:;F0一致性损失如下:
其中,表示 l1 范数,是生成器接收输入的梅尔谱图 X 和样式向量通过对抗性损失学习生成的新的梅尔谱图;
所述生成器采用自动语音识别技术辅助训练,所述语音一致性损失如下:
其中,表示LSTM层之前的中间层的输出;
范数一致性损失用于保留生成样本的语音/静音间隔;对第 t 帧有 N维和 T 帧的梅尔谱图 X 使用绝对列和范数,定义为, 其中 t ∈ {1, . . . , T }是帧索引;范数一致性损失由下式给出:
。
2.根据权利要求1所述的方法,其特征在于,所述根据所述判别器的各个判别结果训练所述判别器,包括:
获取第二损失因子,所述第二损失因子包括对抗损失因子和源分类器损失因子;
根据所述第二损失因子和所述各个判别结果训练所述判别器。
3.根据权利要求1所述的方法,其特征在于,所述获取所述样本病理嗓音的样本梅尔谱图,包括:
将所述样本病理嗓音先做STFT变换生成功率谱特征,然后输入至梅尔滤波器组,通过所述梅尔滤波器组获取所述样本梅尔谱图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211226889.6/1.html,转载请声明来源钻瓜专利网。