[发明专利]用于文本到语音转换分析的持续时间知悉网络在审
申请号: | 202080028696.2 | 申请日: | 2020-03-05 |
公开(公告)号: | CN113711305A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 俞承柱;卢恒;俞栋 | 申请(专利权)人: | 腾讯美国有限责任公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/00;G10L13/08;G10L13/047 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 赵翠萍;张颖玲 |
地址: | 美国加利福尼亚州*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 语音 转换 分析 持续时间 知悉 网络 | ||
1.一种方法,包括:
通过设备接收包括文本分量的序列的文本输入;
通过所述设备并使用持续时间模型来确定所述文本分量的相应持续时间;
通过所述设备基于所述文本分量的序列来生成第一语谱集;
通过所述设备基于所述第一语谱集和所述文本分量的序列的相应持续时间来生成第二语谱集;
通过所述设备基于所述第二语谱集来生成语谱图帧;
通过所述设备基于所述语谱图帧来生成音频波形;以及
通过所述设备提供所述音频波形作为输出。
2.根据权利要求1所述的方法,其中,所述文本分量是音素。
3.根据权利要求1所述的方法,其中,所述文本分量是字符。
4.根据权利要求1所述的方法,所述方法进一步包括:
基于所述文本分量的相应持续时间来复制所述第一语谱集中的相应语谱;以及
其中,所述生成第二语谱集包括基于复制所述第一语谱集来生成所述第二语谱集。
5.根据权利要求1所述的方法,其中,所述第二语谱集包括梅尔频率倒谱语谱。
6.根据权利要求1所述的方法,所述方法进一步包括:
使用一组预测帧和训练文本分量来训练所述持续时间模型。
7.根据权利要求1所述的方法,所述方法进一步包括:
使用隐马尔可夫模型强制对齐技术来训练所述持续时间模型。
8.一种设备,包括:
至少一个存储器,配置成存储程序代码;
至少一个处理器,配置成读取所述程序代码并按照所述程序代码的指令进行操作,所述程序代码包括:
接收代码,配置成使得所述至少一个处理器接收包括文本分量的序列的文本输入;
确定代码,配置成使得所述至少一个处理器使用持续时间模型来确定所述文本分量的相应持续时间;
生成代码,配置成使得所述至少一个处理器:
基于所述文本分量的序列来生成第一语谱集;
基于所述第一语谱集和所述文本分量的序列的相应持续时间来生成第二语谱集;
基于所述第二语谱集来生成语谱图帧;
基于所述语谱图帧来生成音频波形;以及
提供代码,配置成使得所述至少一个处理器提供所述音频波形作为输出。
9.根据权利要求8所述的设备,其中,所述文本分量是音素。
10.根据权利要求8所述的设备,其中,所述文本分量是字符。
11.根据权利要求8所述的设备,所述设备进一步包括:
复制代码,配置成使得所述至少一个处理器基于所述文本分量的相应持续时间来复制所述第一语谱集中的相应语谱;以及
其中,所述生成代码配置成使得所述至少一个处理器生成第二语谱集,包括基于复制所述第一语谱集来生成所述第二语谱集。
12.根据权利要求8所述的设备,其中,所述第二语谱集包括梅尔频率倒谱语谱。
13.根据权利要求8所述的设备,所述设备进一步包括:
训练代码,配置成使得所述至少一个处理器使用一组预测帧和训练文本分量来训练所述持续时间模型。
14.根据权利要求8所述的设备,所述设备进一步包括:
训练代码,配置成使得所述至少一个处理器使用一组预测帧和训练文本分量来训练所述持续时间模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯美国有限责任公司,未经腾讯美国有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080028696.2/1.html,转载请声明来源钻瓜专利网。