[发明专利]基于自适应高斯聚类的非平行文本条件下的语音转换方法有效

专利信息
申请号: 201710474281.8 申请日: 2017-06-21
公开(公告)号: CN107301859B 公开(公告)日: 2020-02-21
发明(设计)人: 李燕萍;左宇涛 申请(专利权)人: 南京邮电大学
主分类号: G10L15/02 分类号: G10L15/02;G10L15/06;G10L15/07;G10L15/14;G10L17/02;G10L21/007;G10L25/51;G10L19/032
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 朱小兵
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,属于语音信号处理技术领域。首先利用基于单元挑选和声道长度归一化相结合的方法对非平行语料进行语音特征参数对齐,然后进行自适应高斯混合模型和双线性频率弯折加幅度调节的训练,得到语音转换所需的转换函数,最后使用该转换函数实现高质量的语音转换。本发明不仅克服了训练阶段要求平行语料的限制,实现了非平行文本条件下的语音转换,适用性和通用性更强,而且使用自适应高斯混合模型替代传统高斯混合模型,解决了高斯混合模型在进行语音特征参数分类时不精确的问题,并将自适应高斯混合模型和双线性频率弯折加幅度调节相结合,在转换的个性相似度和语音质量上更好。
搜索关键词: 基于 自适应 高斯聚类 平行 文本 条件下 语音 转换 方法
【主权项】:
一种基于自适应高斯聚类的非平行文本条件下的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:步骤1,输入源说话人和目标说话人的非平行训练语料;步骤2,使用AHOcoder语音分析模型分别提取源说话人的非平行训练语料的MFCC特征参数X、目标说话人的非平行训练语料的MFCC特征参数Y,以及源语音基频log f0X和目标语音基频log f0Y;步骤3,对步骤2中的MFCC特征参数X、Y,进行单元挑选和声道长度归一化相结合的语音特征参数对齐和动态时间规整,从而将非平行语料转变成平行语料;步骤4,使用期望最大化EM算法进行自适应混合高斯模型AGMM训练,AGMM训练结束,得到后验条件概率矩阵P(X|λ),并保存AGMM参数λ;步骤5,利用步骤3得到的源语音特征参数X和目标语音特征参数Y,使用步骤4中的后验条件概率矩阵P(X|λ)进行双线性频率弯折BLFW+幅度调节AS训练,得到频率弯折因子α(x,λ)和幅度调节因子s(x,λ),从而构建BLFW+AS转换函数;使用对数基频的均值和方差建立源语音基频log f0X和目标语音基频log f0Y之间的基频转换函数;所述转换阶段包括如下步骤:步骤6,输入待转换的源说话人语音;步骤7,使用AHOcoder语音分析模型提取源说话人语音的MFCC特征参数X′和对数基频log f0X′;步骤8,使用步骤4中AGMM训练时得到的参数λ,求取后验条件概率矩阵P′(X|λ);步骤9,使用步骤5中得到的BLFW+AS转换函数,求得转换后的MFCC特征参数Y′;步骤10,使用步骤5得到的基频转换函数由对数基频log f0X′得到转换后的对数基频log f0Y′;步骤11,使用AHOdecoder语音合成模型将转换后的MFCC特征参数Y′和对数基频log f0Y′合成得到转换后的语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710474281.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top