[发明专利]训练数据有限情形下的非平行文本语音转换方法有效
申请号: | 201810418346.1 | 申请日: | 2018-05-03 |
公开(公告)号: | CN109671423B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 李燕萍;许吉良 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L25/18;G10L25/24 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳;徐振兴 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 数据 有限 情形 平行 文本 语音 转换 方法 | ||
本发明公开了一种目标说话人训练数据有限情形下的多说话人对多说话人的非平行文本语音转换系统。在目标说话人训练数据有限情形下,通过对提取瓶颈特征的深度神经网络的训练过程进行干预与优化,从其他说话人特征空间自适应得到目标说话人的特征,解决了由于目标说话人不充分训练而导致特征空间分布不足的问题,完成非平行文本条件下基于瓶颈特征和变分自编码模型的多说话人对多说话人的语音转换。本发明的优势有三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)当目标说话人的训练数据有限时,可以完成非平行文本条件下的多对多转换,一定程度上实现语音转换技术从闭集走向开集,为实际的语音人机交互提供技术支撑。
技术领域:
本发明涉及信号处理、机器学习及语音信号处理领域,特别涉及一种在训练数据有限情形下的非平行文本语音转换系统实现方法。
背景技术:
语音转换技术经过多年的研究,已经涌现了很多的经典转换方法,其中包括高斯混合模型(Gaussian Mixed Model,GMM)、频率弯折、深度神经网络(DNN)以及基于单元选择的方法等。但是这些语音转换方法大多需要使用平行语料库进行训练,建立源语音和目标语音频谱特征之间的转换规则。
一种基于变分自编码器(VAE)模型的语音转换方法,直接利用说话人的身份标签建立语音转换系统,这种语音转换系统在模型训练时不需要对源说话人和目标说话人的语音帧进行对齐,可以解除对平行文本的依赖。但是基于VAE的语音转换模型并不能解决目标语音训练语料不充分问题,即在进行decoder过程中,并不能有效得到表征目标语音个性特征的类别标签yn,无法完成转换任务。在实际的语音人机交互中,常常无法获得目标说话人的充分训练语料,因此,有限语料下的转换问题是面向应用中亟需解决的问题。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容:
本发明的目的在于提供一种训练数据有限情形下的非平行文本语音转换方法,从而克服上述现有技术中的缺陷。
为实现上述目的,本发明提供了一种训练数据有限情形下的非平行文本语音转换方法,其特征在于,该方法包括以下步骤:
1训练部分:
1.1训练语料通过AHOcoder分析/合成模型提取出不同说话人不同语句MFCC特征参数X和语音基频log f0;
1.2对1.1中每帧的语音特征X进行一次差分和二次差分,并与原特征拼接在一起得到特征Xt=(X,ΔX,Δ2X),然后将拼接后的特征与前后各一帧形成联合特征参数xn=(Xt-1,Xt,Xt+1);
1.3将1.2中的联合特征xn作为说话人识别任务的DNN网络的训练输入数据,DNN模型的输出为说话人Bottleneck特征bn。当说话人训练数据不充分时,对DNN的训练过程进行干预与优化,对mini-batch错误率进行监控,设定一定的阈值。为了补充目标说话人的特征空间,对于错分到目标说话人一类的帧,通过改变标签将其归为目标说话人。然后继续DNN训练,待DNN模型训练至收敛后,提取每一帧的Bottleneck特征bn作为VAE网络训练过程中decoder的监督信息,进行VAE模型训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810418346.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种获取纯净语音的录音方法
- 下一篇:车辆特征的响应激活
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置