[发明专利]并行神经文本到语音转换在审
申请号: | 202010518795.0 | 申请日: | 2020-06-09 |
公开(公告)号: | CN112669809A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 彭开南;平伟;宋钊;赵可心 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 马晓亚;王艳春 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并行 神经 文本 语音 转换 | ||
本文提供了将文本转换为音频表示的非自回归序列到序列模型的实施例。实施例是完全卷积的,并且测试的实施例在合成时相比于现有模型获得大约46.7倍的加速,同时使用WaveNet声码器保持相当的语音质量。有趣的是,测试的实施例在挑战性测试句子上也具有比自回归模型更少的注意力误差。在一个或多个实施例中,通过应用逆自回归流(IAF)作为并行神经声码器来构建第一个全并行神经文本到语音系统。系统实施例可以通过单个前馈通路从文本合成语音。本文还公开了用于从头开始训练IAF作为原始波形的生成模型的新颖方法的实施例,其避免了对来自单独训练的WaveNet的蒸馏的需要。
相关申请的交叉引用
本申请是2019年2月15日提交的题为“SYSTEMS AND METHODS FOR PARALLEL WAVEGENERATION IN END-TO-END TEXT-TO-SPEECH(用于在端到端文本到语音中并行波生成的系统和方法)”且发明人为Wei Ping、Kainan Peng和Jitong Chen的美国专利申请第16/277,919号(案号28888-2269(BN181015USN1))的部分继续申请且与其共同待审和共同拥有并要求该申请的优先权权益,而该美国专利申请第16/058,265号是2018年8月8日提交的题为“SYSTEMS AND METHODS FOR NEURAL TEXT-TO-SPEECHUSING CONVOLUTIONAL SEQUENCELEARNING(利用卷积序列学习进行神经文本语音转换的系统和方法)”且发明人为SercanArk、WeiPing、Kainan Peng、Sharan Narang、Ajay Kannan、Andrew Gibiansky、JonathanRaiman和John Miller的美国专利申请第16/058,265号(案号28888-2175(BN171012USN1))的部分继续申请且与其共同待审和共同拥有并要求该申请的优先权权益,上述美国专利申请第16/058,265号根据35U.S.C§119(e)要求于2017年10月19日提交的题为“SYSTEMS ANDMETHODS FOR NEURAL TEXT-TO-SPEECH USING CONVOLUTIONAL SEQUENCE LEARNING(利用卷积序列学习进行神经文本语音转换的系统和方法)”且发明人为Sercan Ar1k,Wei Ping,Kainan Peng,Sharan Narang,Ajay Kannan,Andrew Gibiansky,Jonathan Raiman和JohnMiller的美国临时申请第62/574,382号(案号28888-2175P(BN171012USN1临时))的优先权。上述每个专利文献的全部内容均通过引用结合到本文中并用于所有目的。
技术领域
本公开总体上涉及用于计算机学习的系统和方法,其可以提供改进的计算机性能、特征和使用。更具体地,本公开涉及用于通过深度神经网络的文本到语音转换的系统和方法。
背景技术
人工语音合成系统(通常称为文本到语音(TTS)系统)将书面语言转换为人类语音。TTS系统被用于各种应用中,诸如人类技术接口,视觉受损的可访问性、媒体和娱乐。从根本上讲,它允许在不需要可视界面的情况下进行人-技术交互。传统的TTS系统基于复杂的多级手工设计的管线。通常,这些系统首先将文本转换为紧凑的音频表示,然后使用被称为声码器的音频波形合成方法将该表示转换为音频。
由于它们的复杂性,开发TTS系统可能是非常劳动密集型的和困难的。最近关于神经TTS的工作已经证明了令人印象深刻的结果,产生了具有稍微简单的特征、较少的分量和较高质量的合成语音的管线。关于TTS的最优神经网络结构还没有共识。
因此,需要用于创建、开发和/或部署改进的说话者文本到语音系统的系统和方法。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010518795.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置及其形成方法
- 下一篇:信号源管理系统、方法和装置