[发明专利]文本到语音系统和方法以及其存储介质有效
申请号: | 201711237595.2 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108573693B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 全炳河;哈维尔·贡萨尔沃;詹竣安;扬尼斯·阿焦米尔詹纳基斯;尹炳亮;罗伯特·安德鲁·詹姆斯·克拉克;雅各布·维特 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L19/008;G10L25/30;G10L25/54 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;安翔 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 语音 系统 方法 及其 存储 介质 | ||
本申请涉及使用自动编码器的文本到语音合成。用于使用自动编码器的文本到语音合成的方法、系统和计算机可读介质。在一些实施方式中,获得指示用于文本到语音合成的文本的数据。提供指示文本的语言单元的数据作为对编码器的输入。编码器被配置成基于语言信息,输出指示声学特性的语音单元表示。接收编码器输出的语音单元表示。语音单元被选择以表示语言单元,语音单元基于由编码器所输出的语音单元表示从语音单元合集当中来选择。提供用于包括所选择的语音单元的文本的经合成的话语的音频数据。
技术领域
本申请涉及使用自动编码器的文本到语音合成。
相关申请的交叉引用
本申请要求于2017年3月14日在希腊提交的希腊专利申请号20170100100在35U.S.C.§119下的优先权,其整体内容通过引用并入本文。
背景技术
本说明书大体涉及文本到语音合成并且更特别地涉及使用神经网络的文本到语音合成。
神经网络能够被用于执行文本到语音合成。典型地,文本到语音合成试图生成近似人类语音的声音的合成话语。
发明内容
在一些实施方式中,文本到语音系统包括被训练为自动编码器网络的一部分的编码器。编码器被配置成接收用于语音单元的语言信息(诸如用于单音或双音的标识符),并且作为响应生成指示语音单元的声学特性的输出。编码器的输出能够以单个大小的输出向量编码具有不同大小的语音单元的特性。为了选择在单元选择语音合成中使用的语音单元,语言单元的标识符能够作为对编码器的输入而被提供。编码器的结果的输出能够被用于从语音单元的语料库检索候选语音单元。例如,包括至少编码器的输出的向量能够与包括用于语料库中的语音单元的编码器输出相比较。
在一些实施方式中,自动编码器网络包括语言编码器、声学编码器和解码器。语言编码器和声学编码器二者被训练以基于不同的类型的输入,生成用于语音单元的语音单元表示。语言编码器被训练以基于语言信息,生成语音单元表示。声学编码器被训练以基于声学信息(诸如描述语音单元的音频特性的特征向量),生成语音单元表示。自动编码器网络被训练以使由语言编码器和声学编码器所生成的语音单元表示之间的距离最小化。语言编码器、声学编码器和解码器能够每个包括一个或多个长短期记忆层。
在一个一般方面中,一种方法由文本到语音系统的一个或多个计算机执行。方法包括:由一个或多个计算机获得指示用于文本到语音合成的文本的数据;由一个或多个计算机提供指示所述文本的语言单元的数据作为对编码器的输入,所述编码器被配置成输出指示基于语言信息的声学特性的语音单元表示,其中,所述编码器被配置成提供通过机器学习训练所学习的语音单元表示;由所述一个或多个计算机接收编码器响应于接收作为对编码器的输入的指示所述语言单元的所述数据而输出的语音单元表示;由所述一个或多个计算机选择表示语言单元的语音单元,所述语音单元基于由所述编码器所输出的所述语音单元表示而从语音单元合集当中被选择;并且由所述一个或多个计算机针对包括所选择的语音单元的文本的合成话语提供音频数据作为所述文本到语音系统的输出。
本公开的该方面和其它方面的其它实施例包括对应的系统、装置和计算机程序,其被配置成执行在计算机存储设备上编码的方法的动作。一个或多个计算机的系统可以借助于在操作中使得系统执行动作的被安装在系统上的软件、固件、硬件或其组合来配置。一个或多个计算机程序可以借助于具有在由数据处理装置执行时使得装置执行动作的指令来配置。
实施方式可以包括以下特征中的一个或多个。例如,在一些实施方式中,编码器被配置成提供相同大小的语音单元表示来表示具有不同持续时间的语音单元。
在一些实施方式中,编码器被训练以从语言单元标识符推断语音单元表示,并且由编码器所输出的语音单元表示是具有相同固定长度的向量。
在一些实施方式中,编码器包括具有一个或多个长短期记忆层的经训练的神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711237595.2/2.html,转载请声明来源钻瓜专利网。