[发明专利]语音转换方法、装置和系统及存储介质在审
申请号: | 202011609527.6 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112750446A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 武剑桃;李秀林 | 申请(专利权)人: | 标贝(北京)科技有限公司 |
主分类号: | G10L21/013 | 分类号: | G10L21/013;G10L25/27 |
代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰;戴亚南 |
地址: | 100192 北京市海淀区西小口路66号中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 转换 方法 装置 系统 存储 介质 | ||
1.一种语音转换方法,包括:
获取源说话者的源语音;
对所述源语音进行特征提取,以获得所述源说话者的源识别声学特征;
将所述源识别声学特征输入语音识别模型,以获得所述语音识别模型输出的所述源说话者的语音后验概率,所述语音后验概率包括与多个时间帧一一对应的多个后验概率向量;
将所述多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得所述特征转换模型输出的目标说话者的目标合成声学特征,其中,所述目标合成声学特征包括与所述至少部分时间帧一一对应的合成声学特征向量,所述多个时间帧中的每个时间帧属于有效时间帧或无效时间帧,所述有效时间帧是指所对应的源语音音频段是有效音频段的时间帧,所述无效时间帧是指所对应的源语音音频段是无效音频段的时间帧,所述至少部分时间帧包括所述多个时间帧中的所有有效时间帧;
基于有效声学特征进行语音合成,以获得所述目标说话者的有效语音,其中,所述有效声学特征包括所述目标合成声学特征中的与所述所有有效时间帧一一对应的合成声学特征向量;
其中,所述语音识别模型或所述特征转换模型还输出源音频状态信息,所述源音频状态信息包括与所述多个时间帧一一对应的多组帧音频状态信息,每组帧音频状态信息表示对应时间帧下的源语音音频段属于有效音频段还是无效音频段,所述多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧基于所述源音频状态信息确定。
2.根据权利要求1所述的语音转换方法,其中,在所述基于有效声学特征进行语音合成,以获得所述目标说话者的有效语音之后,所述方法还包括:
将所述有效语音与预设静音音频结合,以获得所述目标说话者的目标语音,其中,所述预设静音音频包括与所述多个时间帧中的所有无效时间帧一一对应的静音音频片段。
3.根据权利要求1所述的语音转换方法,其中,所述语音识别模型包括第一共享网络层、语音后验概率输出层和音频状态输出层,所述将所述源识别声学特征输入语音识别模型,以获得所述语音识别模型输出的所述源说话者的语音后验概率包括:
将所述源识别声学特征输入所述第一共享网络层,以获得所述第一共享网络层输出的第一共享特征;
将所述第一共享特征分别输入所述语音后验概率输出层和所述音频状态输出层,以获得所述语音后验概率输出层输出的所述语音后验概率以及所述音频状态输出层输出的所述源音频状态信息。
4.根据权利要求1所述的语音转换方法,其中,所述语音识别模型还输出所述源音频状态信息,所述将所述多个时间帧中的至少部分时间帧所对应的后验概率向量输入特征转换模型,以获得所述特征转换模型输出的目标说话者的目标合成声学特征包括:
基于所述源音频状态信息确定所述多个时间帧中的每个时间帧属于有效时间帧还是无效时间帧;
从所述语音后验概率中提取所述所有有效时间帧所对应的后验概率向量;
将所提取的后验概率向量输入所述特征转换模型,以获得所述目标合成声学特征。
5.根据权利要求1至4任一项所述的语音转换方法,其中,所述语音识别模型还输出所述源音频状态信息,在所述获取源说话者的源语音之前,所述方法还包括:
获取样本说话者的样本训练语音、与所述样本训练语音相对应的标注语音类别信息和与所述样本训练语音相对应的标注音频状态信息,所述标注语音类别信息用于指示所述样本训练语音所包括的语音类别,所述标注音频状态信息用于指示所述样本训练语音中的每个音频段属于有效音频段还是无效音频段;
对所述样本训练语音进行特征提取,以获得所述样本说话者的样本识别声学特征;
将所述样本识别声学特征输入所述语音识别模型,以获得所述语音识别模型输出的所述样本说话者的预测语音后验概率和预测音频状态信息;
基于所述标注语音类别信息和所述预测语音后验概率计算第一损失;
基于所述标注音频状态信息和所述预测音频状态信息计算第二损失;
结合所述第一损失和所述第二损失计算第一总损失;
基于所述第一总损失对所述语音识别模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于标贝(北京)科技有限公司,未经标贝(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011609527.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音转换方法、装置和系统及存储介质
- 下一篇:苏打水两段提升输送系统