[发明专利]基于说话人情感语音合成模型的对抗与元学习方法在审
申请号: | 202211010973.4 | 申请日: | 2022-08-23 |
公开(公告)号: | CN115359778A | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 张句;贡诚;王宇光;关昊天 | 申请(专利权)人: | 慧言科技(天津)有限公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/047;G10L13/08;G10L13/033;G10L25/03;G10L25/30;G06N3/08 |
代理公司: | 北京智桥联合知识产权代理事务所(普通合伙) 11560 | 代理人: | 程小艳 |
地址: | 300384 天津市滨海新区华苑产*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 说话 人情 语音 合成 模型 对抗 学习方法 | ||
本发明属于语音合成深度学习技术领域,具体涉及一种基于说话人情感语音合成模型的对抗与元学习方法,利用对抗训练与元学习的方式对情感语音合成系统进行优化。包括数据预处理、端到端语音合成基础模型的设计以及添加对抗训练模块用来抹去情感嵌入表示中的音色信息,对抗模块主要包含一个梯度反转层和一个speaker分类器和基于元学习的训练。采用元学习的方式提升情感语音合成模型的泛化能力,使其能够在少量说话人语音数据上进行快速适应。
技术领域
本发明属于深度学习技术领域,具体涉及一种基于说话人情感语音合成模型的对抗与元学习方法,利用对抗训练与元学习的方式对情感语音合成系统进行优化。
背景技术
语音是人类交际的重要工具之一。人类的说话中不仅包含了文字符号信息,还包含了人们的感情和情绪的变化。例如,同样一句话,往往由于说话人的情感不同。其意思和给听者的印象就会不同,所谓“听话听音”就是这个意思。而通用的语音合成系统多着眼于合成语音的自然度和准确度,忽略了包含在语音信号中的情感因素。
近几年来,在深度学习等方法的推动下,语音合成技术得到了很大的发展,尤其是情感语音合成,由于它能够很好地将语音的口语分析、情感分析与计算机技术有机的融合,为实现以人为本、具有个性化特征的语音交互系统奠定基础。
目前,国内外研究中,大多数是通过一个无监督的风格编码器来学习参考音频的情感嵌入,从而实现端到端的情感语音合成。然而,由于情感来自参考音频(源)说话人的语音,该源说话人的音色信息也可以被传递到合成语音,使合成语音听起来像源说话人或者介于源说话人和和目标说话人之间,会产生所谓的说话人音色泄漏问题。此外,由于情感数据录制的成本较高,我们很难获得任一说话人的大量的不同情感的数据,导致合成语音中传递的情感表现力不足,从而制约情感语音合成的质量。
为了从源说话人的参考音频中迁移情感来合成目标说话人的情感语音,同时在合成语音中保持目标说话人的音色,我们提出了一种基于对抗训练的情感解耦模块,在模型训练过程当中抹去情感嵌入中所包含的说话人信息。此外,考虑到录制一个带有不同情感类别的语料库非常具有挑战性,我们采用元学习的方式提升情感语音合成模型的泛化能力,使其能够在少量说话人语音数据上进行快速适应。
发明内容
本发明为解决背景技术中提出的技术问题,采用一种基于说话人情感语音合成模型的对抗与元学习方法。
本发明的技术方案是基于说话人情感语音合成模型的对抗与元学习方法,包括如下步骤:
步骤一,数据的预处理:文本需要进行前端处理,而文本与音频成对的数据作为训练数据,同时还需进行梅尔谱特征的提取;
步骤二,端到端语音合成基础模型的设计:基于端到端语音合成Tacotron2进行设计,对于情感语音合成任务,我们进行了以下修改:
1)添加说话人信息,不同的说话人编码为不同的speaker ID,同时将speaker ID作为输入,经过查表LUT得到说话人嵌入表示;
2)添加情感编码器,用来学习情感嵌入表示,其中情感编码器的输入为参考音频,情感编码器包含一个5层的一维卷积,以及一个双向的LSTM,经过情感编码器后会得到情感嵌入表示;
其中,说话人嵌入表示和情感嵌入表示会和Tacotron2模型的文本编码器输出的文本表示结合,共同指导最终的梅尔谱特征的生成;
步骤三,添加对抗训练模块:添加对抗训练模块用来抹去情感嵌入表示中的音色信息,对抗模块主要包含一个梯度反转层和一个speaker分类器;
在添加完对抗训练模块之后,首先采用几个不同说话人和情感的数据进行预先训练,用来得到一个基础的情感语音合成模型,实现对于训练集中的说话人的情感语音合成;
定义为此时的神经网络参数,并作为步骤四的初始参数;
步骤四,基于元学习的训练:采用元学习的方式对步骤三所训练得到的情感语音合成模型进行再次的训练,包含以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧言科技(天津)有限公司,未经慧言科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211010973.4/2.html,转载请声明来源钻瓜专利网。