[发明专利]语音合成方法、装置以及新闻播报方法、系统有效
申请号: | 201911069478.9 | 申请日: | 2019-11-05 |
公开(公告)号: | CN110808027B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 李广之;刘朋;陀得意;康世胤 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 冯右明 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 以及 新闻 播报 系统 | ||
1.一种语音合成方法,包括:
获取输入字符,通过语音合成模型的编码器将所述输入字符编码为字符特征向量;
按照解码步次序确定当前解码步的目标输入字符;
获取当前解码步的注意力向量,拼接所述注意力向量以及所述目标输入字符的字符特征向量,得到目标注意力向量;所述当前解码步的注意力向量根据各所述输入字符的字符特征向量以及在所述当前解码步的注意力权重得到;
获取前序解码步的解码信息,将所述目标注意力向量以及前序解码步的解码信息输入至所述语音合成模型的解码器中,得到所述解码器输出的所述目标输入字符在当前解码步的频谱信息以及当前解码步的字符停止符;
在当前解码步的字符停止符为结束标识时,根据所述目标输入字符在各解码步的频谱信息生成所述目标输入字符的语音数据。
2.根据权利要求1所述的方法,其特征在于,所述编码器包括卷积神经网络和第一长短时记忆神经网络;
所述通过语音合成模型的编码器将所述输入字符编码为字符特征向量的步骤,包括:
获取所述输入字符的字符编码序列;
将所述字符编码序列输入至所述卷积神经网络进行特征映射,得到所述输入字符的上下文信息序列;
将所述上下文信息序列输入至所述第一长短时记忆神经网络,得到所述输入字符的字符特征向量。
3.根据权利要求1所述的方法,其特征在于,所述获取当前解码步的注意力向量的步骤,包括:
获取前序解码步的解码信息,计算所述前序解码步的解码信息与各所述输入字符的字符特征向量间的匹配度;
根据所述匹配度确定在当前解码步各所述输入字符的注意力权重;
根据各所述输入字符的字符特征向量以及在当前解码步的注意力权重,获取当前解码步的注意力向量。
4.根据权利要求1或3所述的方法,其特征在于,所述获取前序解码步的解码信息的步骤,包括:
获取上一解码步的频谱信息以及上一解码步的注意力向量;
将所述上一解码步的频谱信息输入至所述编码器的预处理网络,得到频谱特征向量;
将所述频谱特征向量与上一解码步的注意力向量拼接后输入至所述编码器的第二长短时记忆神经网络,得到前序解码步的解码信息。
5.根据权利要求1所述的方法,其特征在于,所述频谱信息包括梅尔频谱以及线性谱;所述解码器包括频谱线性投影网络和频谱后处理网络;
所述将所述目标注意力向量以及前序解码步的解码信息输入至所述语音合成模型的解码器中,得到所述解码器输出的所述目标输入字符在当前解码步的频谱信息的步骤,包括:
将目标注意力向量以及前序解码步的解码信息输入至所述解码器的频谱线性投影网络中,得到所述频谱线性投影网络输出的当前解码步的梅尔频谱;
将所述目标输入字符当前解码步的梅尔频谱输入至所述解码器的频谱后处理网络中,得到所述后处理网络输出的当前解码步的线性谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911069478.9/1.html,转载请声明来源钻瓜专利网。