[发明专利]语音合成有效
申请号: | 201780075142.6 | 申请日: | 2017-10-03 |
公开(公告)号: | CN110050302B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 文森特·波莱;恩科里·佐瓦托 | 申请(专利权)人: | 赛伦斯运营公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/10 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王小东;黄纶伟 |
地址: | 美国马*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 | ||
本发明的各方面涉及基于输入数据合成语音或其他音频。另外,本发明的各方面涉及使用一个或多个递归神经网络。例如,计算装置可以接收文本输入;根据文本输入可以确定特征;可以提供特征作为递归神经网络的输入;可以确定来自递归神经网络的隐藏层的一个或多个激活的嵌入数据;可以基于语音单元搜索确定语音数据,其中,语音单元搜索基于嵌入数据从数据库中选择语音单元;和使语音输出可以基于语音数据生成。
相关申请的交叉引用
本专利申请要求于2017年7月12日递交的名称为“语音合成”的美国非临时申请15/648,022的优先权、其要求于2017年6月29日递交的名称为“语音合成”的美国临时申请62/526,812的权益和于2016年10月4日递交的名称为“语音合成方法”的美国临时申请62/403,771的权益。上述申请中的每一个通过引用并入本文中。
技术领域
本发明通常涉及基于输入数据合成语音或其他音频。另外,本申请涉及使用一个或多个递归神经网络。
背景技术
语音合成系统通常处理文本输入并生成旨在模仿人类语音的输出语音。用于合成语音的常见过程可以处理文本输入以确定拼音信息和韵律信息。拼音信息可以包括例如确定文本输入中的每个词汇的一个或多个音位。韵律信息可以包括确定韵律单元,例如用于文本输入的短语、从句和句子。可以使用各种技术来基于拼音信息和韵律信息生成语音输出,包括例如基于样本的技术或基于参数的技术。
基于样本的技术可以使用预先录制的语音样本的数据库。拼音信息和韵律信息可以用作选择一组预先记录的语音样本和将所选组连接在一起以形成输出语音的基础。因为使用预先记录的样本,所以基于样本的技术可以产生自然的声音合成语音。合成语音的自然性可以指合成语音模仿人类语音的声音模式的容易程度。然而,基于样本的技术的整体性能可能取决于预先录制的语音样本的数据库的大小和/或预先记录的语音样本在数据库内被组织和选择的方式。此外,因为预先记录的语音样本依赖于分段技术来确定预先记录的样本,所以在合成语音中可能存在可听到的小毛病。
基于参数的技术在运行时不使用预先记录的语音样本。相反,可以基于参数化人类语音的声学模型生成输出语音。一种常见的方法是使用隐马尔可夫模型(HMM)来模拟人类语音的各种参数。如果与基于样本的技术相比,基于参数的技术可以产生更易理解的合成语音。合成语音的易理解度可以指合成语音被理解的容易程度。然而,与基于样本的技术相比,基于参数的技术可能产生较不自然的声音合成语音。
鉴于每种合成语音的常用方法的各种缺点,始终存在改进合成语音的过程的需要。
发明内容
以下呈现了本文描述的各个方面的简要概述。本概述不是一个广泛的概述,并非旨在识别关键或重要元素或描述权利要求的范围。以下概述仅以简化形式呈现一些概念,作为下面提供的更详细描述的介绍性前序。
为了克服上面讨论的挑战,并且为了克服在阅读和理解本说明书时将显而易见的其他挑战,本文描述的多个方面有利地改进了合成语音的过程。由本文描述的技术提供的优点涉及使用递归神经网络(RNN),使用从RNN提取的嵌入数据,以及可以搜索语音单元的方式。例如,计算装置可以接收文本输入。计算装置可以基于文本输入确定特征。计算装置可以将特征提供为RNN的输入。计算装置可以从激活RNN的隐藏层来确定嵌入数据。计算装置可以基于语音单元搜索来确定语音数据,该语音单元搜索试图基于嵌入数据从数据库中选择语音单元。最后,计算装置可以基于语音数据生成语音输出。本文描述的其他方面涉及RNN的各种布置,嵌入数据的各种使用以及执行语音单元搜索的方式。
通过以下进一步详细讨论的本发明的内容的益处,可以理解这些和其他方面。
附图说明
通过参考以下描述和考虑附图,可以获得对本文描述的方面及其优点的更完整的理解,其中,相同的附图标记表示相同的特征,并且附图中:
图1描绘了可以根据本文描述的一个或多个说明性方面使用的说明性计算机系统架构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赛伦斯运营公司,未经赛伦斯运营公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780075142.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:交通拥堵监控系统和方法
- 下一篇:基于第三方代理内容的语音到文本转换