[发明专利]多语言神经文本到语音合成在审
申请号: | 201910588478.3 | 申请日: | 2019-07-02 |
公开(公告)号: | CN112185337A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 杨径舟;何磊 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L19/04;G10L25/30 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 张立达 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 神经 文本 语音 合成 | ||
1.一种用于通过多语言神经文本到语音(TTS)合成来生成语音的方法,包括:
接收采用至少第一语言的文本输入;
通过讲话者编码器,提供目标讲话者的讲话者潜在空间信息;
通过语言编码器,提供第二语言的语言潜在空间信息;
通过声学特征预测器,基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征;以及
通过神经声码器,基于所述至少一个声学特征来生成与所述文本输入对应的语音波形。
2.如权利要求1所述的方法,其中,生成至少一个声学特征包括:
通过将所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息用作所述声学特征预测器的全局条件,生成与所述文本输入对应的所述至少一个声学特征。
3.如权利要求2所述的方法,其中,所述声学特征预测器通过所述讲话者潜在空间信息来使得所述至少一个声学特征使用所述目标讲话者的声音,并且通过所述第二语言的语言潜在空间信息来使得所述至少一个声学特征具有所述第二语言的口音。
4.如权利要求1所述的方法,其中,所生成的语音波形使用所述目标讲话者的声音、采用所述第一语言并且具有所述第二语言的口音。
5.如权利要求1所述的方法,其中,所述语音波形是通过所述神经声码器进一步基于所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息中的至少一个来生成的。
6.如权利要求1所述的方法,其中,所述第二语言的语言潜在空间信息包括在多维空间中对所述第二语言的韵律的表征。
7.如权利要求1所述的方法,其中,所述第二语言与所述第一语言相同或不同。
8.如权利要求1所述的方法,还包括:
通过所述语言编码器,提供第三语言的语言潜在空间信息;以及
对所述第二语言的语言潜在空间信息和所述第三语言的语言潜在空间信息进行内插,以获得经内插的语言潜在空间信息,
其中,生成至少一个声学特征包括:基于所述文本输入、所述讲话者潜在空间信息和所述经内插的语言潜在空间信息来生成所述至少一个声学特征。
9.如权利要求8所述的方法,其中,所述至少一个声学特征和所述语音波形具有介于所述第二语言和所述第三语言之间的口音。
10.如权利要求1所述的方法,其中,所述文本输入包括采用第一语言的内容和采用第三语言的内容。
11.如权利要求10所述的方法,其中,所述第二语言与所述第一语言或者所述第三语言相同。
12.如权利要求1所述的方法,其中,提供目标讲话者的讲话者潜在空间信息包括以下至少之一:
基于采用与所述第一语言不同的语言的、所述目标讲话者的语料库来生成所述讲话者潜在空间信息;以及
从讲话者潜在空间信息数据库中检索与所述目标讲话者对应的所述讲话者潜在空间信息。
13.如权利要求1所述的方法,还包括:
基于所述目标讲话者的语料库来更新所述讲话者编码器、所述语言编码器和所述声学特征预测器中的至少一个。
14.如权利要求1所述的方法,还包括:
通过生成式对抗网络来训练所述声学特征预测器。
15.如权利要求14所述的方法,其中,所述生成式对抗网络包括:
基于所述声学特征预测器的生成器;以及
用于鉴别讲话者或语言的鉴别器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910588478.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:锅巴制作装置
- 下一篇:视频提供方法、装置、电子设备及存储介质