[发明专利]基于激活指导和内卷积的跨语种语音转换方法有效
申请号: | 202111056323.9 | 申请日: | 2021-09-09 |
公开(公告)号: | CN113808570B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 李燕萍;戴少梁;邱祥天 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L15/00;G10L15/02;G10L15/06;G10L15/16;G10L19/02;G10L25/24;G10L25/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 激活 指导 卷积 语种 语音 转换 方法 | ||
本发明公开了基于激活指导和内卷积的跨语种语音转换方法,包括训练阶段和转换阶段。本发明中提出的语音转换模型由编码器和解码器组成,首先在编解码器中采用内卷积代替传统卷积,极大地减少模型的参数量和计算量,有效地提升算法的运行效率;进一步利用编码器中的激活指导提取源说话人语句中的内容信息,同时采用U型连接将目标说话人的个性信息从编码器传递到解码器,并在解码器中与源说话人语句中的内容信息进行重构,从而实现高质量的跨语种语音转换。与此同时,该方法还可以对不在训练集内的说话人实现转换,即完成开集情形下任意说话人的跨语种转换。
技术领域
本发明涉及语音转换技术领域,具体涉及一种基于激活指导和内卷积的跨语种语音转换方法。
背景技术
语音转换是语音信号处理领域的重要研究分支,语音转换任务是在给定待转换的源说话人语音和目标说话人语音的前提下,生成具有源说话人语音内容和目标说话人个性特征的语音。传统的语音转换专注于解决同语种转换问题,即要求源和目标说话人语音语种相同,而跨语种语音转换打破了这一限制,源和目标说话人说的语种、文本均不相同。从另一个角度,无论是传统的同语种语音转换还是跨语种语音转换,如果待转换语音中对应的说话人不参与转换模型的训练,那么这类问题属于开集情形下任意说话人的语音转换范畴。
1985年,Childers等人首次提出了语音转换问题,之后经过多年的研究,已经涌现了很多经典的转换方法。在平行语料条件下,Stylianou等人提出了基于GMM(GaussianMixture Model,高斯混合模型)的语音转换方法。由于采集大量平行语料往往较为困难且耗时耗力,尤其在跨语种语音转换等领域中,采集到平行的训练语料根本无法实现;此外,平行语料条件下的转换方法,在训练阶段,通常需要对齐操作,这一行为会引入额外的噪声,影响转换模型的效果。因此,无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下的语音转换研究都具有更大的应用价值和现实意义。
2004年开始,国内外学者对非平行语料条件下的语音转换方法进行了尝试和探究,比如:聚类频谱匹配算法、说话人参数自适应、基于单元选择的时间帧匹配方法、最近邻迭代对准方法。但是这些方法大多难以达到基于GMM在平行语料条件下的转换性能。随着深度神经网络的飞速发展,非平行语料条件下的语音转换方法取得了新的突破,主要包括基于Cycle-GAN(Cycle-ConsistentAdversarial Networks,循环一致对抗网络)的方法、基于C-VAE(Conditional VariationalAuto-Encoder,条件变分自编码器)的方法、基于STARGAN(Star Generative Adversarial Network,星型生成对抗网络)模型等。这些转换方法能够直接规避对平行语料的依赖,实现非平行文本下的转换,但是目前这些已有的语音转换研究的方法主要是在相同的语种上进行转换研究,跨语种条件下的语音转换研究仍存在很大的挑战。
在跨语种语音转换的研究中,由于源、目标说话人所说的语种、文本均不同,不同语种下的音素、音调和重音都会存在差异,因此跨语种语音转换的研究难度较高。最初实现跨语种语音转换的方法对训练语料的要求很高,它要求同一个说话人提供两套不同语种的语料,即依赖于双语说话人的平行数据集。然而,语音数据的获取本就困难,要获取双语说话人的平行文本数据集的成本更高,并不现实。2018年,表征学习被用于解决跨语种语音转换问题。Mohammadi等人提出FHVAE(Factorized Hierarchical VariationalAutoencoder,因式分层变分自编码器),该方法虽然不再受限于双语说话人的平行数据集,但是由于变分自编码器(VariationalAutoencoder,VAE)过平滑效应导致转换后的语音中存在明显的噪音。后续,PPG(Phonetic PosteriorGram,语音概率后验图)被应用于跨语种语音转换,但该方法受限于涉及的语音识别系统的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111056323.9/2.html,转载请声明来源钻瓜专利网。