[发明专利]一种双层自回归解码的序列到序列语音合成方法及系统有效
申请号: | 202010672991.3 | 申请日: | 2020-07-14 |
公开(公告)号: | CN111883102B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 周骁;凌震华;戴礼荣 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/04;G10L13/08;G10L25/30;G10L25/24;G06N3/04;G06N3/08 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 张乾桢 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双层 回归 解码 序列 语音 合成 方法 系统 | ||
1.一种双层自回归解码的序列到序列语音合成方法,其特征在于,包括如下步骤:
步骤1:语言表征编码,利用编码器,将待合成音素序列对应的语言表征转换为上下文单元表征;
步骤2:声学特征预测,利用解码器,从步骤1中得到上下文单元表征中预测文本对应的梅尔谱特征,具体包括几个子步骤:
步骤2.1:音素级表征生成,通过音素表征模块将音素内帧级的声学特征编码为该音素的声学单元表征;
步骤2.2:音素级表征预测,利用步骤2.1得到的历史音素的声学单元表征和当前音素的上下文单元表征,预测当前音素的声学单元表征;
步骤2.3:帧级特征预测,利用步骤2.2预测的当前音素的声学单元表征以及当前帧的声学特征,预测下一帧的声学特征;
所述步骤1如下:
将长度为N的音素序列对应的语言表征序列输入编码器,通过三个1维的卷积神经网络和双向长短时记忆网络,即BiLSTM,获得上下文单元表征序列BiLSTM由一个前向LSTM和反向LSTM拼接而成,将BiLSTM沿着两个方向的隐藏状态向量连接起来以获得上下文单元表征序列H,其中对于第n个单元的上下文单元表征函数concat表示向量拼接,和分别是前向和后向LSTM对应第n个单元的隐藏状态;
所述步骤2.1包括:
音素级表征模块通过汇总一个音素中所有的帧级声学特征以获得其音素级的声学单元表征;在合成阶段,该音素级表征模块的输入是上一帧对应的预测梅尔谱;在训练阶段,输入是上一帧对应的自然梅尔谱;上一帧的梅尔谱首先经过全连接预处理网络,然后采用帧一级LSTM来建模音素中帧级声学特征序列间的依赖性;根据已知的音素边界在音素的开始帧位置重置LSTM状态;最后为了得到单元对应的定长的音素级声学单元表征使用池化方法将LSTM得到的隐藏状态序列转换为声学单元表征向量
所述步骤2.2包括所述音素级预测模块采用音素级自回归结构来预测当前的声学单元表征并描述连续音素间的依赖性,该音素级预测模块包括音素一级LSTM和循环预测器gc,其中音素一级LSTM将历史音素单元的声学单元表征转换为声学历史向量采用如下公式:
其中,被设置为零向量;循环预测器gc是一个全连接网络,它的输入是声学历史向量和当前音素的上下文单元表征它的输出是当前音素的预测的声学单元表征采用如下公式:
之后再将预测的声学单元表征上采样到帧级送至下一个帧级预测模块;
为了保证构成音素级的自回归结构,在训练阶段,需要计算一致性损失函数,定义为预测的声学单元表征与真实的声学单元表征之间的均方误差。
2.根据权利要求1所述的一种双层自回归解码的序列到序列语音合成方法,其特征在于,所述步骤2.1中,在训练阶段,为了将上下文单元表征和声学单元表征联系起来,采用注意力机制来获得每个音素的声学单元表征的识别概率,进而计算音素识别损失;假设一句话包含N个音素,在这里对于第n个音素,询问值Query是声学单元表征键值Keys是上下文单元表征序列注意力机制中第n个键值对应的权重被用作第n个音素识别概率的估计值,训练阶段通过交叉熵函数将其与句中音素的独热编码进行比较,以得到音素识别损失。
3.根据权利要求2所述的一种双层自回归解码的序列到序列语音合成方法,其特征在于,所述音素识别损失的计算步骤如下:
第一步、将询问值与上下文单元表征拼接,再与矩阵相乘,经tanh函数计算后再与向量的转置进行点积运算得到每个键值对应的能量
第二步使用softmax函数将所有键值对应的能量e={e1,e2,…,eN}归一化得到键值对应的概率值α={α1,α2,…,αN};
第三步通过计算多分类的交叉熵将当前第n个音素对应的概率值αn转换为音素识别损失其中向量va和矩阵Wa是待训练的模型参数,D是单元表征的维度,h是注意力机制中隐层的维度,代表实数域空间,concat代表向量拼接的函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010672991.3/1.html,转载请声明来源钻瓜专利网。