[发明专利]一种语音合成方法、装置以及计算机可读存储介质有效
申请号: | 202011391440.6 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112509553B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 江明奇;陈云琳;殷昊;杨喜鹏;张旭 | 申请(专利权)人: | 问问智能信息科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L19/18;G10L25/30 |
代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 江宇 |
地址: | 100044 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 装置 以及 计算机 可读 存储 介质 | ||
本发明公开了一种语音合成方法、装置以及计算机可读存储介质,包括:获取文本信息,并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码,编码生成表征用于概括所述文本信息的第一内容向量;接收针对所述文本信息中每个子文本信息的语音时长信息;根据所接收的语音时长信息,调整所述第一内容向量中针对所述子文本信息的语音时长,生成第二内容向量;根据所生成的第二内容向量,生成对应于所述文本信息的语音信息。由此,在语音合成过程中,通过控制第一内容向量中的文本时长,使得所生成的声音在音质未下降的基础上变得富有情感并且连贯舒畅。
技术领域
本发明涉及语音合成领域,尤其涉及一种语音合成方法、装置以及计算机可读存储介质。
背景技术
在语音合成是指计算机自动根据文本生成相应语音的技术,传统的语音合成技术分为参数语音合成和拼接语音合成。
参数语音合成所生成的声音,音质不错,缺点在于声音平淡、缺乏情感,并且含有一些背景音。
拼接语音合成所生成的声音,音质很高,缺点在于需要大量的录制声音,以满足不同的场景需求,另外,拼接算法常常会有拼接不连贯的问题。
发明内容
本发明实施例提供了一种语音合成方法、装置以及计算机可读存储介质,具有生成富有情感且音质高语音的技术效果。
本发明一方面提供一种语音合成方法,所述方法包括:获取文本信息,并将所获取的文本信息输入到基于端到端神经网络的声学模型中进行编码,编码生成表征用于概括所述文本信息的第一内容向量;接收针对所述文本信息中每个子文本信息的语音时长信息;根据所接收的语音时长信息,调整所述第一内容向量中针对所述子文本信息的语音时长,生成第二内容向量;根据所生成的第二内容向量,生成对应于所述文本信息的语音信息。
在一可实施方式中,所述接收针对所述文本信息中每个子文本信息的语音时长信息,包括:将所述文本信息作为已预训练好的时长模型的输入,输出得到对应于所述子文本信息的语音时长信息;或者,从信息库中获取对应于所述子文本信息的语音时长信息。
在一可实施方式中,所述时长模型为基于端到端的神经网络模型;相应的,所述将所述文本信息作为已预训练好的时长模型的输入,输出得到对应于所述子文本信息的语音时长信息,包括:将所述文本信息输入于所述时长模型中的编码层进行编码处理,输出得到表征用于概括所述文本信息的第三内容向量;将所述第三内容向量输入于所述时长模型中的解码层进行解码处理,输出得到对应于所述子文本信息的语音时长信息。
在一可实施方式中,所述根据所接收的语音时长信息,调整所述第一内容向量中针对所述子文本信息的语音时长,生成第二内容向量,包括:根据所接收的语音时长信息,将所述第一内容向量中对应的子文本信息进行重复增加/删除语音帧数处理,生成第二内容向量。
在一可实施方式中,所述根据所生成的第二内容向量,生成对应于所述文本信息的语音信息,包括:将所述第二内容向量输入于所述声学模型中的解码层进行解码,生成对应的语音谱参数;将所生成的语音谱参数作为基于神经网络的声码器模型的输入,生成对应于所述文本信息的语音信息。
在一可实施方式中,所述将所述第二内容向量输入于所述声学模型中的解码层进行解码,包括:通过注意力机制选择性的将所述第二内容向量输入于所述声学模型进行解码。
在一可实施方式中,所述声码器模型采用卷积神经网络,并且根据语音采样点建模。
本发明另一方面提供一种语音合成装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于问问智能信息科技有限公司,未经问问智能信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011391440.6/2.html,转载请声明来源钻瓜专利网。