[发明专利]用于文本到语音转换分析的持续时间知悉网络在审
申请号: | 202080028696.2 | 申请日: | 2020-03-05 |
公开(公告)号: | CN113711305A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 俞承柱;卢恒;俞栋 | 申请(专利权)人: | 腾讯美国有限责任公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/00;G10L13/08;G10L13/047 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 赵翠萍;张颖玲 |
地址: | 美国加利福尼亚州*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 语音 转换 分析 持续时间 知悉 网络 | ||
一种方法和装置,包括:接收包括文本分量的序列的文本输入。使用持续时间模型来确定文本分量的相应持续时间。基于文本分量的序列来生成第一语谱集。基于第一语谱集和文本分量的序列的相应持续时间来生成第二语谱集。基于第二语谱集来生成语谱图帧。基于语谱图帧来生成音频波形。提供音频波形作为输出。
相关申请的交叉引用
本申请要求于2019年4月29日提交的第16/397,349号美国申请的优先权,该美国申请的公开内容通过引用整体并入本文。
背景技术
近来,基于Tacotron的端到端语音合成系统显示了从合成语音的韵律以及自然度的角度得到的令人印象深刻的文本到语音转换(TTS)结果。然而,在合成语音时跳过或重复输入文本中的某些单词方面,此类系统具有显著缺点。这个问题由此类系统的端到端性质引起,其中不可控的注意机制用于语音生成。本公开通过将Tacotron系统内部的端到端注意机制替代成会通知持续期的注意网络来解决这些问题。本公开所提出的网络实现了相当的或提高的合成性能,并解决了Tacotron系统内的问题。
发明内容
根据一些可能的实现方式,一种方法包括:通过设备接收包括文本分量的序列的文本输入;通过设备并使用持续时间模型来确定文本分量的相应持续时间;通过设备基于文本分量的序列来生成第一语谱集;通过设备基于第一语谱集和文本分量的序列的相应持续时间来生成第二语谱集;通过设备基于第二语谱集来生成语谱图帧;通过设备基于语谱图帧来生成音频波形;以及通过设备提供音频波形作为输出。
根据一些可能的实现方式,一种设备包括:至少一个存储器,配置成存储程序代码;至少一个处理器,配置成读取程序代码并按照程序代码的指令进行操作,程序代码包括:接收代码,配置成使得至少一个处理器接收包括文本分量的序列的文本输入;确定代码,配置成使得至少一个处理器使用持续时间模型来确定文本分量的相应持续时间;生成代码,配置成使得至少一个处理器:基于文本分量的序列来生成第一语谱集;基于第一语谱集和文本分量的序列的相应持续时间来生成第二语谱集;基于第二语谱集来生成语谱图帧;基于语谱图帧来生成音频波形;以及提供代码,配置成使得至少一个处理器提供音频波形作为输出。
根据一些可能的实现方式,一种非暂时性计算机可读介质存储指令,指令包括一个或多个指令,一个或多个指令在由设备的一个或多个处理器运行时,使得一个或多个处理器:接收包括文本分量的序列的文本输入;使用持续时间模型来确定文本分量的相应持续时间;基于文本分量的序列来生成第一语谱集;基于第一语谱集和文本分量的序列的相应持续时间来生成第二语谱集;基于第二语谱集来生成语谱图帧;基于语谱图帧来生成音频波形;以及提供音频波形作为输出。
附图说明
图1是本文描述的示例实现方式的概略图;
图2是可实现本文描述的系统和/或方法的示例环境的图;
图3是图2的一个或多个设备的示例组件的图;以及
图4是使用用于文本到语音合成的、会通知持续期的注意网络来生成音频波形的示例过程的流程图。
具体实施方式
TTS系统具有各种各样的应用。然而,大部分采用的商业系统主要基于参数系统,该参数系统与人类的自然语音相比存在很大的差距。Tacotron是与基于参数的传统TTS系统明显不同的TTS合成系统,且能够产生高度自然的语音句子。整个系统可以以端到端的方式训练,且用编码器-卷积-堆-公路网-双向选通-循环单元(CBHG)模块代替传统的复杂语言特征提取部分。
用端到端的注意机制来代替在传统参数系统中使用的持续时间模型,其中在端到端的注意机制中,从注意模型学习输入文本(或音素序列)和语音信号之间的对齐,而不是基于隐马尔可夫模型(HMM)的对齐。与Tacotron系统相关联的另一个主要区别在于它直接预测梅尔/线性语谱,该梅尔/线性语谱可直接由高级声码器(例如Wavenet和WaveRNN)使用来合成高质量语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯美国有限责任公司,未经腾讯美国有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080028696.2/2.html,转载请声明来源钻瓜专利网。