[发明专利]一种基于深度学习的语音转换方法有效

申请号：	201710589792.4	申请日：	2017-07-19
公开（公告）号：	CN107545903B	公开（公告）日：	2020-11-24
发明（设计）人：	李燕萍;凌云志	申请（专利权）人：	南京邮电大学
主分类号：	G10L25/24	分类号：	G10L25/24;G10L25/30;G10L17/04;G10L17/18
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	朱小兵
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于深度学习的语音转换方法，属于语音信号处理技术领域。本发明使用声音编解码器AHOcoder作为特征提取端和语音合成端，使用一种深度学习的方法对语音特征进行训练分别得到源说话人和目标说话人的深层特征，同时得到由深层特征重构原始特征的解码能力，使用BP神经网络实现源说话人和目标说话人深层特征的映射，从而实现语音转换。本发明优点在于对语音的原始特征进行了拼接，认为拼接后的联合特征参数包含有说话人语音特性的动态特征，通过预训练深度自编码器加速了深度神经网络的训练，且通过深层特征的转换使得在使用少量语料进行训练的情况下得到了品质较好的转换后的语音，并且本发明支持离线学习，节约了终端设备的计算资源和内存。
搜索关键词：	一种基于深度学习语音转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于深度学习的语音转换方法，其特征在于，包括训练步骤和语音转换步骤，其中，训练步骤如下：1)、利用AHOcoder语音编解码器分别对源说话人和目标说话人的语音进行处理，提取出各自的梅尔倒谱特征参数Xt，Yt；2)、将提取出的特征参数逐句进行DTW对齐，然后取每一帧特征参数和其前后各一帧的特征拼接形成联合特征参数，分别作为源说话人的特征参数和目标说话人的特征参数，即Xp＝(Xt‑1，Xt，Xt+1)，Yp＝(Yt‑1,Yt，Yt+1)；3)、通过深度堆栈自编码器DSAE分别对源说话人和目标说话人的特征参数进行训练，分别得到源说话人的深度堆栈自编码器DSAEs和目标说话人的深度堆栈自编码器DSAEt，然后利用前馈算法，将训练使用源说话人和目标说话人的语音特征参数分别逐帧输入到各自对应的DSAE中，得到每一帧对应的中间隐层的激活值，即为源说话人和目标说话人的深层特征DXp，DYp；4)、将源说话人和目标说话人的深层特征通过BP神经网络进行训练得到深层特征的映射网络；5)、将DSAEs的编码块和DSAEt的解码块叠加到映射网络的两端，构成深度神经网络，并通过梯度下降算法依据均方误差最小化准则优化深度神经网络的权值，得到一个由源说话人语音联合特征参数直接转换为目标说话人语音联合特征参数特征的转换网络；语音转换步骤如下：6)、利用AHOcoder语音编解码器对源说话人的语音进行处理，提取出源说话人的梅尔倒谱特征参数，将提取出的特征参数逐句进行DTW对齐，然后取每一帧特征参数和其前后各一帧的特征拼接形成联合特征参数；7)、将联合特征参数作为深度神经网络的输入，从深度神经网络的输出端即得到转换后目标说话人语音的联合特征参数，再通过AHOcoder语音编解码器合成转换后目标说话人的语音。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710589792.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的语音转换方法有效

专利文献下载