[发明专利]一种语音转换方法、装置、设备及存储介质在审
申请号: | 202210090018.X | 申请日: | 2022-01-25 |
公开(公告)号: | CN114387954A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 唐存琛;曹宽;钟颖 | 申请(专利权)人: | 武汉大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/07;G10L15/16 |
代理公司: | 武汉智权专利代理事务所(特殊普通合伙) 42225 | 代理人: | 张凯 |
地址: | 430072*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 转换 方法 装置 设备 存储 介质 | ||
1.一种语音转换方法,其特征在于,包括:
将源语音的梅尔语谱输入到语音转换模型,获得所述语音转换模型输出的目标语音的梅尔语谱;
其中,所述语音转换模型在训练时以训练梅尔语谱为输入,获得所述语音转换模型的转换梅尔语谱损失和停止概率损失,以所述转换梅尔语谱损失和所述停止概率损失最小化为目标对所述语音转换模型进行迭代训练。
2.按照权利要求1所述的语音转换方法,其特征在于,所述将源语音的梅尔语谱输入到语音转换模型,获得所述语音转换模型输出的目标语音的梅尔语谱前,还包括:
构建语音转换模型;
输入所述训练梅尔语谱到所述语音转换模型,获得当前时间步转换梅尔语谱帧和所述当前时间步转换梅尔语谱帧对应的停止概率;
根据所述当前时间步转换梅尔语谱帧确定所述转换梅尔语谱损失,根据所述停止概率确定所述停止概率损失;
根据所述当前时间步转换梅尔语谱损失和所述停止概率损失确定所述转换模型的总损失;
以所述总损失最小化为目标,对所述语音转换模型进行迭代优化,获得训练后的语音转换模型。
3.按照权利要求2所述的语音转换方法,其特征在于,所述输入所述训练梅尔语谱到所述语音转换模型,获得当前时间步转换梅尔语谱帧和所述当前时间步转换梅尔语谱帧对应的停止概率,还包括:
输入上一时间步转换梅尔语谱帧到所述语音转换模型。
4.按照权利要求2所述的语音转换方法,其特征在于,所述根据所述当前时间步转换梅尔语谱帧确定所述转换梅尔语谱损失,包括:
对所述当前时间步转换梅尔语谱帧进行残差预测,获得残差值;
根据所述当前时间步转换梅尔语谱帧和所述残差确定所述转换梅尔语谱损失。
5.按照权利要求2所述的语音转换方法,其特征在于,所述以所述总损失最小化为目标,对所述语音转换模型进行迭代优化,获得训练后的语音转换模型,包括:
通过梯度下降法更新所述语音转换模型的网络权重参数,直至所述总体损失收敛至最小。
6.按照权利要求1所述的语音转换方法,其特征在于,所述语音转换模型,包括:
编码器,所述编码器用于将所述源语音的梅尔语谱转换为特征向量;
位置敏感的注意力模块,所述位置敏感的注意力模块用于确定所述特征向量的分布概率,根据所述特征向量的分布概率确定当前时间步的特征向量;
解码器,所述解码器用于将所述当前时间步的特征向量转换为目标语音的梅尔语谱,并获取所述目标语音的梅尔语谱的停止概率。
7.按照权利要求1所述的语音转换方法,其特征在于,所述将源语音的梅尔语谱输入到语音转换模型,获得所述语音转换模型输出的目标语音的梅尔语谱后,还包括:
将所述目标语音的梅尔语谱通过预置的频谱恢复语音信号算法转换为目标语音。
8.一种语音转换装置,其特征在于,包括:
转换模块,其用于将源语音的梅尔语谱输入到语音转换模型,获得所述语音转换模型输出的目标语音的梅尔语谱;
其中,所述语音转换模型在训练时以训练梅尔语谱为输入,获得所述语音转换模型的转换梅尔语谱损失和停止概率损失,以所述转换梅尔语谱损失和所述停止概率损失最小化为目标对所述语音转换模型进行迭代训练。
9.一种语音转换设备,其特征在于,其包括:
处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的程序,其中所述程序被所述处理器执行时,实现如权利要求1至7中任一项所述的语音转换方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有程序,其中所述程序被处理器执行时,实现如权利要求1至7中任一项所述的语音转换方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210090018.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于动物体重测量的视觉估重装置
- 下一篇:一种水泵模拟环境多功能测试台