[发明专利]一种语音转换模型的训练方法及装置在审
申请号: | 202111052652.6 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113763987A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 张鹏远;陈子毅;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/30;G10L15/26;G10L15/06 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 转换 模型 训练 方法 装置 | ||
本说明书实施例提供一种语音转换模型的训练方法及装置,方法包括:对样本音频进行特征提取,得到梅尔谱特征标签及基频序列;将梅尔谱特征标签输入编码器,得到第一内容向量;将第一内容向量输入瓶颈层,得到当前码本向量及第二内容向量;基于第一内容向量和当前码本向量,确定第一损失值;将第一内容向量输入感知机层,得到第一内容向量对应的各字符或空白符的发射概率;基于样本音频的转录文本标签及发射概率,确定第二损失值;将归一化后的基频序列、第二内容向量及样本音频的说话人标签,输入解码器,得到预测梅尔谱特征;基于梅尔谱特征标签及预测梅尔谱特征,确定第三损失值;以最小化上述损失值为目标,训练语音转换模型。
技术领域
本说明书涉及语音处理技术领域,尤其涉及一种语音转换模型的训练方法及装置。
背景技术
语音转换(Voice Conversion,VC)是近些年来研究比较热门的课题,其为一种将一个人的语音在保留完整内容信息的基础下,转换为另外一个人的音色的过程。语音转换属于语音合成的一个技术领域,由于语音转换侧重于语音中身份信息的转换,因此它是语音信号处理中具有挑战性的研究问题之一。
目前的语音转换技术依赖于平行语料,即通过不同人录制的相同内容信息的语音,但是在实际的应用场景中,用户很难去录制特定内容的语音,因而平行语料在现实环境中的获取的难度较大,进而影响后续的语音转换效果。
那么,如何提供一种可以得到不依赖平行语料且转换效果较好的语音转换方法成为亟待解决的问题。
发明内容
本说明书一个或多个实施例提供了一种语音转换模型的训练方法及装置,以实现不依赖平行语料训练得到语音转换模型,且通过该多任务训练所得的语音转换模型,得到转换效果较好的音频。
根据第一方面,提供一种语音转换模型的训练方法,所述语音转换模型包括编码器、瓶颈层以及解码器,所述方法包括:
对样本音频进行特征提取,得到梅尔谱特征标签以及基频序列;
将所述梅尔谱特征标签输入所述编码器,得到第一内容向量;
将所述第一内容向量输入所述瓶颈层,得到当前码本向量以及第二内容向量,其中,所述瓶颈层用于去除输入向量中的说话人信息,所述当前码本向量为与所述第一内容向量距离最近的向量;
基于所述第一内容向量和所述当前码本向量,确定第一损失值;
将所述第一内容向量输入感知机层,得到所述第一内容向量对应的各字符或空白符的发射概率;
基于所述样本音频对应的转录文本标签以及所述发射概率,确定第二损失值;
将归一化后的所述基频序列、所述第二内容向量以及所述样本音频对应的说话人标签,输入所述解码器,得到预测梅尔谱特征;
基于所述梅尔谱特征标签以及所述预测梅尔谱特征,确定第三损失值;
以最小化所述第一损失值、所述第二损失值以及所述第三损失值为目标,训练所述编码器、瓶颈层以及解码器。
在一种可实施方式中,所述对所获得的样本音频进行特征提取,得到梅尔谱特征标签以及基频序列,包括:
对所述样本音频进行预加重,得到对应的加重样本音频;
对所述加重样本音频进行分帧,得到对应的子音频;
针对每一子音频进行加窗;
对每一加窗后的子音频进行快速傅里叶变换,得到每一加窗后的子音频的频谱,并基于每一加窗后的子音频的频谱,确定每一加窗后的子音频的能量谱;
利用梅尔滤波器以及每一加窗后的子音频的能量谱,得到每一加窗后的子音频对应的梅尔谱特征,以得到所述样本音频对应的梅尔谱特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111052652.6/2.html,转载请声明来源钻瓜专利网。