[发明专利]文本到语音系统和方法以及其存储介质有效
申请号: | 201711237595.2 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108573693B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 全炳河;哈维尔·贡萨尔沃;詹竣安;扬尼斯·阿焦米尔詹纳基斯;尹炳亮;罗伯特·安德鲁·詹姆斯·克拉克;雅各布·维特 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L19/008;G10L25/30;G10L25/54 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;安翔 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 语音 系统 方法 及其 存储 介质 | ||
1.一种由文本到语音系统的一个或多个计算机所执行的方法,所述方法包括:
由所述一个或多个计算机获得指示用于文本到语音合成的文本的数据;
由所述一个或多个计算机提供指示所述文本的语言单元的数据作为对编码器的输入,所述编码器被配置成输出指示基于语言信息的声学特性的语音单元表示,其中,所述编码器被配置成提供通过机器学习训练所学习的语音单元表示,其中,所述编码器包括被训练为自动编码器网络的一部分的神经网络,所述自动编码器网络包括所述编码器、第二编码器和解码器,其中:
所述编码器被布置为响应于接收到指示语言单元的数据而产生语音单元表示;
所述第二编码器被布置为响应于接收到指示语音单元的声学特征的数据而产生语音单元表示;以及
所述解码器被布置为响应于从所述编码器或所述第二编码器接收到用于所述语音单元的语音单元表示而生成指示语音单元的声学特征的输出;
由所述一个或多个计算机接收所述编码器响应于接收作为对所述编码器的输入的指示所述语言单元的所述数据而输出的语音单元表示;
由所述一个或多个计算机选择语音单元以表示所述语言单元,所述语音单元是基于由所述编码器所输出的所述语音单元表示而从语音单元合集当中被选择的;以及
由所述一个或多个计算机针对包括所选择的语音单元的所述文本的合成话语提供音频数据作为所述文本到语音系统的输出。
2.根据权利要求1所述的方法,其中,所述编码器被配置成提供相同大小的语音单元表示来表示具有不同持续时间的语音单元。
3.根据权利要求1所述的方法,其中,所述编码器被训练以从语言单元标识符推断语音单元表示,其中,由所述编码器输出的语音单元表示是具有相同固定长度的向量。
4.根据权利要求1所述的方法,其中,所述编码器包括具有一个或多个长短期记忆层的经训练的神经网络。
5.根据权利要求1所述的方法,其中,所述编码器、所述第二编码器和所述解码器联合地被训练;以及
其中,所述编码器、所述第二编码器和所述解码器每个包括一个或多个长短期记忆层。
6.根据权利要求1所述的方法,其中,所述编码器、所述第二编码器和所述解码器使用成本函数联合地被训练,所述成本函数被配置成使以下各项最小化:
输入到所述第二编码器的声学特征与由所述解码器所生成的声学特征之间的差;以及
所述编码器的所述语音单元表示与所述第二编码器的所述语音单元表示之间的差。
7.根据权利要求1所述的方法,还包括:基于(i)包括由所述编码器所输出的所述语音单元表示的第一向量与(ii)与所述语音单元合集中的语音单元相对应的第二向量之间的向量距离,选择用于所述语言单元的候选语音单元集合;以及
生成包括与所选择的候选语音单元集合中的所述候选语音单元相对应的节点的点阵。
8.根据权利要求7所述的方法,其中,选择所述候选语音单元集合包括:
识别作为所述第一向量的最近邻居的预定数量的第二向量;以及
选择与作为所述第一向量的最近邻居的所识别的预定数量的第二向量相对应的语音单元集合作为所述候选语音单元集合。
9.根据权利要求1所述的方法,其中,用于所述语言单元的所述语音单元表示是用于第一语言单元的第一语音单元表示,其中,选择所述语音单元包括:
获得用于紧接地在所述文本的音素表示中的所述第一语言单元之前或之后出现的第二语言单元的第二语音单元表示;
通过将所述第一语音单元表示与所述第二语音单元表示连结来生成双音语音单元表示;以及
选择基于所述双音语音单元表示来识别的双音语音单元以表示所述第一语言单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711237595.2/1.html,转载请声明来源钻瓜专利网。