[发明专利]一种语音合成方法以及语音合成系统在审
申请号: | 202110048322.3 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112908294A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 肖朔 | 申请(专利权)人: | 杭州倒映有声科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/033 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张静 |
地址: | 311100 浙江省杭州市余杭区五*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 以及 系统 | ||
本发明实施例提供了一种语音合成方法以及语音合成系统,该语音合成方法首先将待输入文本转换成文本编码向量,将待输入梅尔声谱转换成风格编码向量。然后基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量,确定出目标梅尔声谱,之后将所述目标梅尔声谱转换成音频信号。可见,在本方案中,增加了风格编码器,通过风格编码器将待输入梅尔声谱转换成风格编码向量,进而实现了合成语音的朗读风格、音色的控制。并且,本方案中的语音合成系统在前期已经进行了大量的通用特征的训练学习,因此在新增朗读风格和音色时,风格编码器只需少量的音频样本,进而降低了合成成本。
技术领域
本发明涉及合成技术领域,具体涉及一种语音合成方法以及语音合成系统。
背景技术
随着科技的不断发展,用户对语音合成质量的要求也越来越高。目前,语音合成根据其合成原理不同,通常分为两大类,一类为拼接型语音合成,另一类为神经网络型语音合成。
其中,拼接型语音合成是将语料库切碎,根据需要合成的文本,经过算法重新拼合,来实现机器朗读。神经网络型语音合成是目前较为常用的一种合成方法,其将预测的语音频谱特征输入到声码器中,进行语音信号的预测重建。
然而,发明人发现,采用拼接型语音合成方式合成的音频中,会存在明显的合成卡顿、不连贯,且无法控制合成的朗读风格、音色,并要求训练所需的语料库至少大于数十小时以上的目标发音人音频,制作成本高。而采用神经网络型语音合成方式合成的音频中,也无法控制合成的朗读风格以及朗读音色,且需要用参数量极大的深度网络作为声码器,进而导致语音合成无法实时、低成本的合成。
因此,如何提供一种语音合成方法,既能控制合成的朗读风格音色,又能降低合成成本,是本领域技术人员亟待解决的一大技术难题。
发明内容
有鉴于此,本发明实施例提供了一种语音合成方法,既能控制合成的朗读风格音色,又能降低合成成本。
为实现上述目的,本发明实施例提供如下技术方案:
一种语音合成方法,包括:
将待输入文本转换成文本编码向量;
将待输入梅尔声谱转换成风格编码向量;
基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量,确定出目标梅尔声谱;
将所述目标梅尔声谱转换成音频信号。
可选的,所述将待输入文本转换成文本编码向量,包括:
对所述待输入文本进行嵌入处理,生成序列形式的文本向量;
将所述文本向量输入预设卷积神经网络,并将所述预设卷积神经网络的输出数据输入预设循环神经网络,由所述预设循环神经网络输出预设长度的文本编码向量。
可选的,所述将待输入梅尔声谱转换成风格编码向量,包括:
将所述待输入梅尔声谱经过预设卷积神经网络、预设循环神经网络以及预设全连接网络,转换成编码序列;
将所述编码序列经过多头注意力机制,生成相对于每个预设特征向量的加权系数,所述预设特征向量表征朗读风格;
基于所述加权系数,对所述预设特征向量进行加权处理,生成预设长度的风格编码向量。
可选的,所述基于当前时间周期的待输入梅尔声谱、上一时间周期的所述文本编码向量以及上一时间周期的所述风格编码向量,确定出目标梅尔声谱,包括:
将所述当前时间周期的待输入梅尔声谱输入预处理网络,由所述预处理网络生成编码的梅尔声谱特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州倒映有声科技有限公司,未经杭州倒映有声科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110048322.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:聚酯石笼网绕线装置
- 下一篇:一种种子茶的制备工艺及其设备