[发明专利]一种语音转换模型的训练方法及装置在审

申请号：	202111052652.6	申请日：	2021-09-06
公开（公告）号：	CN113763987A	公开（公告）日：	2021-12-07
发明（设计）人：	张鹏远;陈子毅;颜永红	申请（专利权）人：	中国科学院声学研究所
主分类号：	G10L25/24	分类号：	G10L25/24;G10L25/30;G10L15/26;G10L15/06
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音转换模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供一种语音转换模型的训练方法及装置，方法包括：对样本音频进行特征提取，得到梅尔谱特征标签及基频序列；将梅尔谱特征标签输入编码器，得到第一内容向量；将第一内容向量输入瓶颈层，得到当前码本向量及第二内容向量；基于第一内容向量和当前码本向量，确定第一损失值；将第一内容向量输入感知机层，得到第一内容向量对应的各字符或空白符的发射概率；基于样本音频的转录文本标签及发射概率，确定第二损失值；将归一化后的基频序列、第二内容向量及样本音频的说话人标签，输入解码器，得到预测梅尔谱特征；基于梅尔谱特征标签及预测梅尔谱特征，确定第三损失值；以最小化上述损失值为目标，训练语音转换模型。

技术领域

本说明书涉及语音处理技术领域，尤其涉及一种语音转换模型的训练方法及装置。

背景技术

语音转换(Voice Conversion，VC)是近些年来研究比较热门的课题，其为一种将一个人的语音在保留完整内容信息的基础下，转换为另外一个人的音色的过程。语音转换属于语音合成的一个技术领域，由于语音转换侧重于语音中身份信息的转换，因此它是语音信号处理中具有挑战性的研究问题之一。

目前的语音转换技术依赖于平行语料，即通过不同人录制的相同内容信息的语音，但是在实际的应用场景中，用户很难去录制特定内容的语音，因而平行语料在现实环境中的获取的难度较大，进而影响后续的语音转换效果。

那么，如何提供一种可以得到不依赖平行语料且转换效果较好的语音转换方法成为亟待解决的问题。

发明内容

本说明书一个或多个实施例提供了一种语音转换模型的训练方法及装置，以实现不依赖平行语料训练得到语音转换模型，且通过该多任务训练所得的语音转换模型，得到转换效果较好的音频。

根据第一方面，提供一种语音转换模型的训练方法，所述语音转换模型包括编码器、瓶颈层以及解码器，所述方法包括：

对样本音频进行特征提取，得到梅尔谱特征标签以及基频序列；

将所述梅尔谱特征标签输入所述编码器，得到第一内容向量；

将所述第一内容向量输入所述瓶颈层，得到当前码本向量以及第二内容向量，其中，所述瓶颈层用于去除输入向量中的说话人信息，所述当前码本向量为与所述第一内容向量距离最近的向量；