[发明专利]基于说话人情感语音合成模型的对抗与元学习方法在审
申请号: | 202211010973.4 | 申请日: | 2022-08-23 |
公开(公告)号: | CN115359778A | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 张句;贡诚;王宇光;关昊天 | 申请(专利权)人: | 慧言科技(天津)有限公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/047;G10L13/08;G10L13/033;G10L25/03;G10L25/30;G06N3/08 |
代理公司: | 北京智桥联合知识产权代理事务所(普通合伙) 11560 | 代理人: | 程小艳 |
地址: | 300384 天津市滨海新区华苑产*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 说话 人情 语音 合成 模型 对抗 学习方法 | ||
1.基于说话人情感语音合成模型的对抗与元学习方法,其特征在于,包括如下步骤:
步骤一,数据的预处理:文本需要进行前端处理,而文本与音频成对的数据作为训练数据,同时还需进行梅尔谱特征的提取;
步骤二,端到端语音合成基础模型的设计:基于端到端语音合成Tacotron2进行设计,对于情感语音合成任务修改如下:
添加说话人信息,不同的说话人编码为不同的speaker ID,同时将speaker ID作为输入,经过查表LUT得到说话人嵌入表示;
添加情感编码器,用来学习情感嵌入表示,其中情感编码器的输入为参考音频,情感编码器包含一个5层的一维卷积,以及一个双向的LSTM,经过情感编码器后会得到情感嵌入表示;
其中,说话人嵌入表示和情感嵌入表示会和Tacotron2模型的文本编码器输出的文本表示结合,共同指导最终的梅尔谱特征的生成;
步骤三,添加对抗训练模块:添加对抗训练模块用来抹去情感嵌入表示中的音色信息,对抗模块主要包含一个梯度反转层和一个speaker分类器;
在添加完对抗训练模块之后,首先采用几个不同说话人和情感的数据进行预先训练,用来得到一个基础的情感语音合成模型,实现对于训练集中的说话人的情感语音合成;
定义为此时的神经网络参数,并作为步骤四的初始参数;
步骤四,基于元学习的训练:采用元学习的方式对步骤三所训练得到的情感语音合成模型进行再次的训练,包含以下步骤:
首先利用多说话人语音合成数据库中构建一系列的meta-tasks元任务集,每个meta-task元任务的support set训练集和query set测试集均包含相同说话人的K个样本和Q个样本,并定义;
定义每个样本为,其中为样本的文本表示,为样本的声学特征,声学特征为梅尔谱特征;
开始迭代执行以下训练过程:
采样任意一个训练任务m,使用任务m的Support Set,基于任务m的学习率,对进行一次优化,更新得到新的参数;
进行一次优化即表示对训练的神经网络权重进行一次反向传播,并根据梯度进行梯度下降,从而更新权重;
基于一次优化后的,使用Query Set计算任务m的loss=,并计算对的梯度;
其中,loss为步骤三所训练得到的情感语音合成模型的损失函数,具体指的是模型预测的声学特征和样本的真实特征之间的误差;
用上述梯度,乘以meta网络的学习率,更新神经网络参数得到;
其中,指的是步骤三之后得到的神经网络模型参数,指的是一次更新之后的参数;
重复以上a至c的训练过程;
步骤五,合成音频。
2.根据权利要求1所述的基于说话人情感语音合成模型的对抗与元学习方法,其特征在于,所述步骤一对于文本的前端处理采用python的自然语言处理工具包NLTK,来进行分词和汉字转拼音操作,对于音频特征的提取,直接采用python的常用音频处理工具包librosa,经过分帧,加窗和预加重,从音频中提取梅尔谱特征。
3.根据权利要求1所述的基于说话人情感语音合成模型的对抗与元学习方法,其特征在于,所述步骤五具体包括:在完成模型最终的训练之后,顺序执行以下步骤,用以合成情感语音;
采用少量的目标说话人的数据集对步骤四得到的神经网络模型的参数进行最终的微调;
输入文本和参考音频以及目标speaker的ID,经过模型预测得到梅尔谱特征,并最终转换为音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧言科技(天津)有限公司,未经慧言科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211010973.4/1.html,转载请声明来源钻瓜专利网。