[发明专利]训练数据有限情形下的非平行文本语音转换方法有效
申请号: | 201810418346.1 | 申请日: | 2018-05-03 |
公开(公告)号: | CN109671423B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 李燕萍;许吉良 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L25/18;G10L25/24 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳;徐振兴 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种目标说话人训练数据有限情形下的多说话人对多说话人的非平行文本语音转换系统。在目标说话人训练数据有限情形下,通过对提取瓶颈特征的深度神经网络的训练过程进行干预与优化,从其他说话人特征空间自适应得到目标说话人的特征,解决了由于目标说话人不充分训练而导致特征空间分布不足的问题,完成非平行文本条件下基于瓶颈特征和变分自编码模型的多说话人对多说话人的语音转换。本发明的优势有三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)当目标说话人的训练数据有限时,可以完成非平行文本条件下的多对多转换,一定程度上实现语音转换技术从闭集走向开集,为实际的语音人机交互提供技术支撑。 | ||
搜索关键词: | 训练 数据 有限 情形 平行 文本 语音 转换 方法 | ||
【主权项】:
1.一种训练数据有限情形下的非平行文本语音转换系统,其特征在于,该方法包括以下步骤:1训练部分:1.1训练语料通过AHOcoder分析/合成模型提取出不同说话人的不同语句的梅尔频率倒谱系数Mel‑Frequency Cepstral Coefficients,MFCC和对数基频log f0;1.2对1.1中说话人每帧的MFCC语音特征X进行一次差分和二次差分,并与原特征进行拼接得到特征Xt=(X,ΔX,Δ2X),然后将拼接后特征的前后各一帧形成联合特征参数xn=(Xt‑1,Xt,Xt+1);1.3将1.2中的联合特征xn作为说话人识别任务的深度神经网络(Deep Neural Networks,DNN)训练的输入数据,DNN模型的输出为说话人分类标签。当目标说话人训练数据不充分时,对DNN的训练过程进行干预与优化,补充目标说话人的特征空间。待DNN模型训练至收敛后,提取每一帧的Bottleneck特征bn作为变分自编码器Variational Autoencoder,VAE模型训练过程中decoder的监督信息;1.4对于VAE模型的训练,将1.2中的输出xn和1.3中DNN模型的输出bn作为VAE模型的输入,按照VAE模型训练方法进行模型训练。待VAE模型训练至收敛后,将VAE隐含空间z各帧的采样特征zn提取出来作为目标说话人Bottleneck特征映射网络Back Propagation网络的训练数据;1.5训练Bottleneck映射网络,将1.4中得到的zn和说话人标签特征yn组成联合特征(zn,yn)输入BP网络,并以DNN网络输出的Bottleneck特征bn作为BP网络的监督数据进行训练,通过随机梯度下降算法优化网络的输出误差,从而得到Bottleneck特征映射网络;1.6将以上训练好的DNN特征提取网络,VAE模型,Bottleneck特征映射网络组成语音转换系统。2转换阶段:2.1源说话人任意测试语音通过AHOcoder分析/合成模型提取源说话人MFCC特征参数Xsrc和对数基频log f0。2.2将源说话人任意测试语音的语音特征参数Xsrc输入VAE语音转换模型,通过VAE模型的encoder过程得到隐层特征zn,并将zn和目标说话人标签yn组成联合特征(zn,yn)输入Bottleneck特征映射网络BP网络,训练得到目标说话人Bottleneck特征bn,将bn和zn通过VAE模型的decoder重构出转换后的语音特征参数Xtar;2.3将转换阶段2.1中提取的源说话人对数基频logf0转换为目标说话人语音对数基频,将转换后的语音特征参数Xtar还原为梅尔频率倒谱形式的语音频谱特征参数xn;2.4将2.3中的语音频谱特征参数xn和目标说话人语音对数基频通过AHOcoder模型合成转换后的说话人语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810418346.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种获取纯净语音的录音方法
- 下一篇:车辆特征的响应激活
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置