[发明专利]训练数据有限情形下的非平行文本语音转换方法有效

申请号：	201810418346.1	申请日：	2018-05-03
公开（公告）号：	CN109671423B	公开（公告）日：	2023-06-02
发明（设计）人：	李燕萍;许吉良	申请（专利权）人：	南京邮电大学
主分类号：	G10L13/08	分类号：	G10L13/08;G10L25/18;G10L25/24
代理公司：	南京苏科专利代理有限责任公司 32102	代理人：	姚姣阳;徐振兴
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种目标说话人训练数据有限情形下的多说话人对多说话人的非平行文本语音转换系统。在目标说话人训练数据有限情形下，通过对提取瓶颈特征的深度神经网络的训练过程进行干预与优化，从其他说话人特征空间自适应得到目标说话人的特征，解决了由于目标说话人不充分训练而导致特征空间分布不足的问题，完成非平行文本条件下基于瓶颈特征和变分自编码模型的多说话人对多说话人的语音转换。本发明的优势有三个方面：1）解除对平行文本的依赖，并且训练过程不需要任何对齐操作；2）可以将多个源‑目标说话人对的转换系统整合在一个转换模型中，即实现多对多转换；3）当目标说话人的训练数据有限时，可以完成非平行文本条件下的多对多转换，一定程度上实现语音转换技术从闭集走向开集，为实际的语音人机交互提供技术支撑。
搜索关键词：	训练数据有限情形平行文本语音转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种训练数据有限情形下的非平行文本语音转换系统，其特征在于，该方法包括以下步骤：1训练部分：1.1训练语料通过AHOcoder分析/合成模型提取出不同说话人的不同语句的梅尔频率倒谱系数Mel‑Frequency Cepstral Coefficients，MFCC和对数基频log f₀；1.2对1.1中说话人每帧的MFCC语音特征X进行一次差分和二次差分，并与原特征进行拼接得到特征X_t＝(X,ΔX,Δ²X)，然后将拼接后特征的前后各一帧形成联合特征参数x_n＝(X_t‑1,X_t,X_t+1)；1.3将1.2中的联合特征x_n作为说话人识别任务的深度神经网络(Deep Neural Networks，DNN)训练的输入数据，DNN模型的输出为说话人分类标签。当目标说话人训练数据不充分时，对DNN的训练过程进行干预与优化，补充目标说话人的特征空间。待DNN模型训练至收敛后，提取每一帧的Bottleneck特征b_n作为变分自编码器Variational Autoencoder，VAE模型训练过程中decoder的监督信息；1.4对于VAE模型的训练，将1.2中的输出x_n和1.3中DNN模型的输出b_n作为VAE模型的输入，按照VAE模型训练方法进行模型训练。待VAE模型训练至收敛后，将VAE隐含空间z各帧的采样特征z_n提取出来作为目标说话人Bottleneck特征映射网络Back Propagation网络的训练数据；1.5训练Bottleneck映射网络，将1.4中得到的z_n和说话人标签特征y_n组成联合特征(z_n,y_n)输入BP网络，并以DNN网络输出的Bottleneck特征b_n作为BP网络的监督数据进行训练，通过随机梯度下降算法优化网络的输出误差，从而得到Bottleneck特征映射网络；1.6将以上训练好的DNN特征提取网络，VAE模型，Bottleneck特征映射网络组成语音转换系统。2转换阶段：2.1源说话人任意测试语音通过AHOcoder分析/合成模型提取源说话人MFCC特征参数X_src和对数基频log f₀。2.2将源说话人任意测试语音的语音特征参数X_src输入VAE语音转换模型，通过VAE模型的encoder过程得到隐层特征z_n，并将z_n和目标说话人标签y_n组成联合特征(z_n,y_n)输入Bottleneck特征映射网络BP网络，训练得到目标说话人Bottleneck特征b_n，将b_n和z_n通过VAE模型的decoder重构出转换后的语音特征参数X_tar；2.3将转换阶段2.1中提取的源说话人对数基频logf₀转换为目标说话人语音对数基频，将转换后的语音特征参数X_tar还原为梅尔频率倒谱形式的语音频谱特征参数x_n；2.4将2.3中的语音频谱特征参数x_n和目标说话人语音对数基频通过AHOcoder模型合成转换后的说话人语音。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810418346.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]训练数据有限情形下的非平行文本语音转换方法有效

专利文献下载