[发明专利]语音合成有效
申请号: | 201780075142.6 | 申请日: | 2017-10-03 |
公开(公告)号: | CN110050302B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 文森特·波莱;恩科里·佐瓦托 | 申请(专利权)人: | 赛伦斯运营公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/10 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王小东;黄纶伟 |
地址: | 美国马*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 | ||
1.一种语音合成的方法,所述方法包括:
接收文本输入;
根据所述文本输入确定特征;
提供所述特征作为单元级递归神经网络RNN的输入,其中,提供给所述单元级RNN的所述特征是单元级的;
由计算装置确定来自所述单元级RNN的隐藏层的一个或多个激活的单元级嵌入数据,训练期间的所述单元级RNN具有输入层、包括所述隐藏层在内的一个或更多个隐藏层、以及输出层;
语音单元搜索使用所述单元级嵌入数据作为输入,从数据库中选择语音单元,并且将所选语音单元输出到帧级RNN作为输入;
通过使用所述单元级RNN的输出层的输出和所述帧级RNN的输出层的输出,确定语音数据;和
使语音输出基于所述语音数据生成。
2.根据权利要求1所述的方法,其中,所述单元级RNN的所述隐藏层的所述一个或多个激活包括激活长短期存储器RNN的隐藏层。
3.根据权利要求1所述的方法,其中,所述单元级嵌入数据包括语音单元嵌入SUE的一个或多个向量。
4.根据权利要求1所述的方法,其中,所述语音单元搜索包括使损失函数最小化的动态编程优化。
5.根据权利要求1所述的方法,其中,使得基于所述语音数据生成所述语音输出包括:
基于所述语音数据确定波形;和
基于所述波形产生所述语音输出。
6.一种语音合成设备,该语音合成设备包括:
一个或多个处理器;和
存储可执行指令的存储器,当所述指令由所述一个或多个处理器执行时,所述指令使得所述语音合成设备执行以下操作:
接收文本输入;
根据所述文本输入确定特征;
提供所述特征作为单元级递归神经网络RNN的输入,其中,提供给所述单元级RNN的所述特征是单元级的;
确定来自所述单元级RNN的隐藏层的一个或多个激活的单元级嵌入数据,训练期间的所述单元级RNN具有输入层、包括所述隐藏层在内的一个或更多个隐藏层、以及输出层;
语音单元搜索使用所述单元级嵌入数据作为输入,从数据库中选择语音单元,并且将所选语音单元输出到帧级RNN作为输入;
通过使用所述单元级RNN的输出层的输出和所述帧级RNN的输出层的输出,确定语音数据;和
使语音输出基于所述语音数据生成。
7.根据权利要求6所述的语音合成设备,其中,所述单元级RNN的所述隐藏层的所述一个或多个激活包括激活长短期存储器RNN的隐藏层。
8.根据权利要求6所述的语音合成设备,其中,所述单元级嵌入数据包括语音单元嵌入SUE的一个或多个向量。
9.根据权利要求6所述的语音合成设备,其中,所述语音单元搜索包括使损失函数最小化的动态编程优化。
10.根据权利要求6所述的语音合成设备,其中,使所述语音合成设备基于所述语音数据生成所述语音输出包括使所述语音合成设备执行以下操作:
基于所述语音数据确定波形;和
基于所述波形生成所述语音输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赛伦斯运营公司,未经赛伦斯运营公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780075142.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:交通拥堵监控系统和方法
- 下一篇:基于第三方代理内容的语音到文本转换