[发明专利]语音合成模型的改进方法和语音合成方法及装置有效
申请号: | 202010721985.2 | 申请日: | 2020-07-24 |
公开(公告)号: | CN111862934B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 俞凯;徐志航;陈博 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 模型 改进 方法 装置 | ||
1.一种语音合成模型的改进方法,其中,所述语音合成模型包括受x-vector控制的LSTM模块,所述方法包括:
将经由x-vector提取器提取的当前话语的说话人嵌入作为所述语音合成模型的额外输入;
利用所述说话人嵌入在受x-vector控制的LSTM模块中,使用所述受x-vector控制的LSTM模块中的控制层来预测对应的控制向量的缩放和偏移以调整所述受x-vector控制的LSTM模块中的参数,其中,所述控制层能够将所述说话人嵌入投射到控制向量中,并且所述控制层在所有话语之间共享。
2.根据权利要求1所述的方法,其中,所述受x-vector控制的LSTM模块的参数计算表示如下:
it=σ(a[i]*W[i][ht-1,xt]+c[i]+b[i])
jt=tanh(a[j]*W[j][ht-1,xt]+c[j]+b[j])
ft=σ(a[f]*W[f][ht-1,xt]+c[f]+b[f])
ot=σ(a[o]*W[o][ht-1,xt]+c[o]+b[o])
st=ft*st-1+it*jt
ht=ot*tanh(st);
其中,it,jt,ft,ot分别是输入门、候选状态、遗忘门、输出门在时间t时的向量,W[m],c[m]分别是所述受x-vector控制的LSTM模型的权重矩阵和偏差矩阵,其中m∈{i,j,f,o},ht,st和xt分别表示在时间t时所述LSTM模型的隐藏输出、单元状态和输入。
3.根据权利要求1或2所述的方法,还包括:
对引入x-vector控制的语音合成模型进行无监督自适应。
4.根据权利要求3所述的方法,其中,所述语音合成模型还包括编码器、解码器和注意力机制;
其中,所述编码器用于将经过文本归一化的音素序列转化为音素嵌入,并在所述音素嵌入上提取文本上下文信息,作为所述编码器的输出;
所述注意力机制用于将所述编码器的输出总结为固定长度的上下文相关向量,并在每一帧将所述上下文相关向量输入所述解码器;
所述解码器为自回归的循环神经网络,用于在所述LSTM模块的基础上,输入前一帧的声学特征和所述上下文相关向量,预测后续若干帧声学特征。
5.根据权利要求4所述的方法,还包括:
将所述解码器输出的声学特征经过后处理网络Postnet进行残差连接以增加更多特征细节;
将处理后的声学特征再经过声码器还原成音频采样点。
6.一种语音合成方法,包括:
获取音频数据,从所述音频数据中提取x-vector特征;
将所述x-vector特征作为额外输入输入至根据权利要求1-3中任一项所述的方法改进后的语音合成模型中;
获取所述改进后的语音合成模型输出的目标说话人音色音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010721985.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音数据增强方法和装置
- 下一篇:房间空气及自引入新风洁净装置