[发明专利]一种基于循环生成对抗网络的语音转换方法在审
申请号: | 201910669055.4 | 申请日: | 2019-07-24 |
公开(公告)号: | CN110459232A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 吴哲夫;陈明达 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G10L21/007 | 分类号: | G10L21/007 |
代理公司: | 33241 杭州斯可睿专利事务所有限公司 | 代理人: | 王利强<国际申请>=<国际公布>=<进入 |
地址: | 310014浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于循环生成对抗网络的语音转换方法,获取源说话人与目标说话人的语料库并将所有的音频统一为固定比特;按照设定的比例分成训练集、测试集和验证集;使用WORLD模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp;将sp送入到CycleGAN模型中训练;模型训练完成之后使用WORLD模型从源说话人和目标说话人的验证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp,并对f0做线性变换,ap不做任何处理,sp传入训练好的CycleGAN模型当中转换并输出;合成语音转换后的音频。本发明改善先前技术中语音转换的质量,并且无需并行数据集就可以实现高质量的语音转换。 | ||
搜索关键词: | 语音转换 训练集 验证集 语音 并行数据集 非周期分量 平滑功率谱 模型训练 线性变换 说话 测试集 功率谱 获取源 提取基 语料库 送入 合成 输出 对抗 转换 网络 统一 | ||
【主权项】:
1.一种基于循环生成对抗网络的语音转换方法,其特征在于,所述方法包括以下步骤:/n步骤1:获取源说话人与目标说话人的语料库并将所有的音频统一为固定比特;/n步骤2:按照设定的比例分别将源说话人与目标说话人的数据集分成训练集、测试集和验证集;/n步骤3:使用WORLD模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp;/n步骤4:将源说话者和目标说话者的功率谱参数sp送入到CycleGAN模型中训练;/n步骤5:模型训练完成之后使用WORLD模型从源说话人和目标说话人的验证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp,并对f0做线性变换,ap不做任何处理,sp传入训练好的CycleGAN模型当中转换并输出;/n步骤6:使用WORLD将步骤5中的f0、ap和sp合成语音转换后的音频,若转换效果良好,音质清晰,则保存训练好的CycleGAN模型;/n步骤7:使用WORLD提取源说话人测试集语音的基频信息f0、非周期分量ap和平滑功率谱参数sp,对f0做与步骤5相同的线性变换,ap不做任何处理,sp传入步骤6保存好的CycleGAN模型中进行转换;/n步骤8:使用WORLD将步骤7中的f0、ap和sp合成语音并输出。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910669055.4/,转载请声明来源钻瓜专利网。