[发明专利]基于自适应高斯聚类的非平行文本条件下的语音转换方法有效

申请号：	201710474281.8	申请日：	2017-06-21
公开（公告）号：	CN107301859B	公开（公告）日：	2020-02-21
发明（设计）人：	李燕萍;左宇涛	申请（专利权）人：	南京邮电大学
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/07;G10L15/14;G10L17/02;G10L21/007;G10L25/51;G10L19/032
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	朱小兵
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于自适应高斯聚类的非平行文本条件下的语音转换方法，属于语音信号处理技术领域。首先利用基于单元挑选和声道长度归一化相结合的方法对非平行语料进行语音特征参数对齐，然后进行自适应高斯混合模型和双线性频率弯折加幅度调节的训练，得到语音转换所需的转换函数，最后使用该转换函数实现高质量的语音转换。本发明不仅克服了训练阶段要求平行语料的限制，实现了非平行文本条件下的语音转换，适用性和通用性更强，而且使用自适应高斯混合模型替代传统高斯混合模型，解决了高斯混合模型在进行语音特征参数分类时不精确的问题，并将自适应高斯混合模型和双线性频率弯折加幅度调节相结合，在转换的个性相似度和语音质量上更好。
搜索关键词：	基于自适应高斯聚类平行文本条件下语音转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于自适应高斯聚类的非平行文本条件下的语音转换方法，其特征在于，包括训练阶段和转换阶段，其中所述训练阶段包括如下步骤：步骤1，输入源说话人和目标说话人的非平行训练语料；步骤2，使用AHOcoder语音分析模型分别提取源说话人的非平行训练语料的MFCC特征参数X、目标说话人的非平行训练语料的MFCC特征参数Y，以及源语音基频log f0X和目标语音基频log f0Y；步骤3，对步骤2中的MFCC特征参数X、Y，进行单元挑选和声道长度归一化相结合的语音特征参数对齐和动态时间规整，从而将非平行语料转变成平行语料；步骤4，使用期望最大化EM算法进行自适应混合高斯模型AGMM训练，AGMM训练结束，得到后验条件概率矩阵P(X|λ)，并保存AGMM参数λ；步骤5，利用步骤3得到的源语音特征参数X和目标语音特征参数Y，使用步骤4中的后验条件概率矩阵P(X|λ)进行双线性频率弯折BLFW+幅度调节AS训练，得到频率弯折因子α(x,λ)和幅度调节因子s(x,λ)，从而构建BLFW+AS转换函数；使用对数基频的均值和方差建立源语音基频log f0X和目标语音基频log f0Y之间的基频转换函数；所述转换阶段包括如下步骤：步骤6，输入待转换的源说话人语音；步骤7，使用AHOcoder语音分析模型提取源说话人语音的MFCC特征参数X′和对数基频log f0X′；步骤8，使用步骤4中AGMM训练时得到的参数λ，求取后验条件概率矩阵P′(X|λ)；步骤9，使用步骤5中得到的BLFW+AS转换函数，求得转换后的MFCC特征参数Y′；步骤10，使用步骤5得到的基频转换函数由对数基频log f0X′得到转换后的对数基频log f0Y′；步骤11，使用AHOdecoder语音合成模型将转换后的MFCC特征参数Y′和对数基频log f0Y′合成得到转换后的语音。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710474281.8/，转载请声明来源钻瓜专利网。

上一篇：基于音频特征空间分层描述的音频分类方法
下一篇：基于中英文混合词典的语音识别方法及装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于自适应高斯聚类的非平行文本条件下的语音转换方法有效

专利文献下载