[发明专利]并行神经文本到语音转换在审
申请号: | 202010518795.0 | 申请日: | 2020-06-09 |
公开(公告)号: | CN112669809A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 彭开南;平伟;宋钊;赵可心 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 马晓亚;王艳春 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并行 神经 文本 语音 转换 | ||
1.用于使用包括编码器和非自回归解码器的文本到语音TTS系统从输入文本合成语音的计算机实现的方法,所述方法包括:
使用所述TTS系统的包括一个或多个卷积层的编码器将所述输入文本编码成包括一组键表示和一组值表示的隐藏表示;
使用所述TTS系统的所述非自回归解码器对所述隐藏表示进行解码,所述非自回归解码器包括:
注意力块,所述注意力块使用位置编码和所述一组键表示来为每个时间步生成上下文表示,所述上下文表示作为输入被提供给多个解码器块中的第一解码器块;以及
所述多个解码器块,其中解码器块包括:
非因果卷积块,如果所述非因果卷积块是多个解码器块中的所述第一解码器块,则接收所述上下文表示作为输入,如果所述非因果卷积块是多个解码器块中的第二解码器块或后续解码器块,则接收从先前解码器块输出的解码器块作为输入,并输出包括查询和中间输出的解码器块输出;以及
注意力块,所述注意力块使用位置编码和从所述非因果卷积块输出的查询来计算与所述中间输出组合以创建用于解码器块的解码器块输出的上下文表示;以及
使用一组解码器块输出来生成表示所述输入文本的一组音频表示帧。
2.如权利要求1所述的计算机实现的方法,其中,所述多个解码器块的所述注意力块通过执行以下步骤来计算上下文表示:
使用来自所述解码器块的所述非因果卷积块的每时间步查询和来自所述编码器的每时间步键表示来计算注意力权重;以及
从所述编码器获得作为一个或多个值表示的加权平均的上下文表示。
3.如权利要求1所述的计算机实现的方法,其中,所述多个解码器块的所述注意力块包括执行以下步骤的注意力掩蔽层:
对于来自所述非因果卷积块的查询,在以目标位置为中心的固定窗口上计算注意力权重的柔性最大值,其中所述目标位置被计算为与所述查询的时间步索引相关。
4.如权利要求1所述的计算机实现的方法,其中,所述注意力块使用所述位置编码来影响注意力对齐加权。
5.如权利要求1所述的计算机实现的方法,其中,所述TTS系统还包括声码器,并且所述方法还包括:
使用所述声码器将所述一组音频表示帧转换为表示所述输入文本的合成语音的信号。
6.如权利要求5所述的计算机实现的方法,其中,所述声码器包括经无蒸馏地训练的声码器解码器,所述声码器解码器包括逆自回归流(IAF)。
7.如权利要求6所述的计算机实现的方法,其中,无蒸馏地训练所述声码器解码器的步骤包括:
使用所述声码器的编码器来引导所述声码器解码器的训练,并且与所述声码器解码器一起训练所述编码器。
8.如权利要求5所述的计算机实现的方法,其中,还包括:
完全并行实现所述TTS系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010518795.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置及其形成方法
- 下一篇:信号源管理系统、方法和装置