[发明专利]一种提高语音合成自然度的方法在审
申请号: | 202110906779.3 | 申请日: | 2021-08-09 |
公开(公告)号: | CN113488021A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 盛乐园 | 申请(专利权)人: | 杭州小影创新科技股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08 |
代理公司: | 杭州中港知识产权代理有限公司 33353 | 代理人: | 张晓红 |
地址: | 310000 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提高 语音 合成 自然 方法 | ||
本发明公开了一种提高语音合成自然度的方法。它包括如下步骤:将文本通过字形到音素的工具得到与文本对应的音素,所有的音素组成一个音素字典,音素字典的个数作为嵌入层的维度,对文本的音素进行表征,由CBHG模块对表征的特征进行编码;将文本编码的结果作为输入,对每个音素的持续时间进行预测,预测结果与真实的标签作比对,对时长模型进行优化;将经过时长模型扩充后的特征进行解码,解码出的结果组合成一个复数的特征,解码出的复数特征经原始音频中短时傅里叶逆变换,还原为语音波形。本发明的有益效果是:可以降低模型的复杂度,减少计算量,节约计算及部署成本;提高合成语音的自然度,发音更加像真人。
技术领域
本发明涉及语音合成相关技术领域,尤其是指一种提高语音合成自然度的方法。
背景技术
由于深度学习的发展及在各领域的应用,语音合成也得到了很多的受益。语音合成大致也可以分为两个阶段:1.拼接法和参数法。拼接法是指在比较大的语料中寻找语音片段,然后根据要合成的文字,去搜索相应的语音片段组合起来。这样合成出的语音虽然是真人的声音,但是在一些全局的特征上表现会受到限制,比如说话的语气,韵律等。同时拼接法还需要比较大的语料,对数据集要求比较高。参数法是指根据统计模型建立文本参数与声学参数之间的映射模型。缺点是合成的语音有机械感不自然,参数调节很麻烦。2.基于深度学习的研究。基于深度学习的语音合成在往端到端方向上发展。合成的质量也越来越好,但是目前真正端到端的模型很少,基本都是通过梅尔频谱在文本与语音之间建立桥梁。这造成了合成语音自然度的损失。
现有的语音合成技术,首先文本会由一个正则化模块将文本处理成音素作为输入,然后经过一个嵌入层网络,对文本或音素进行表征,再将表征的特征通过一些特征提取网络进行编码。编码后特征的长度还是和输入的音素长度一致,只是维度由一维升到高维。根据文本编码的结果去预测文本或音素的发音时长。对预测的发音时长进行取整,这些时长的个数也是和音素的长度一致的。然后根据取整的时长对编码后的特征进行调节,最后可以得到与从真实语音中提取的梅尔频谱的长度一致的文本编码结果。将时长模型调节的结果通过深度学习网络进行特征的解码,与从真实语音中提取的梅尔频谱计算损失。将从真实语音中提取的梅尔频谱作为输入,利用神经网络模型比如:WaveNet,ParallelWaveNet,HifiGan等去预测真实的语音波形。在合成阶段的输入是解码出的梅尔频谱,并不是真实的梅尔频谱作为输入。现有的技术线路是由文本去预测梅尔频谱,然后由声码器根据预测的梅尔频谱去预测语音波形。并且这两个过程所计算的目标函数也不是一致的。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种能够减少计算量的提高语音合成自然度的方法。
为了实现上述目的,本发明采用以下技术方案:
一种提高语音合成自然度的方法,具体包括如下步骤:
(1)文本编码:将文本通过字形到音素的工具得到与文本对应的音素,然后所有的音素组成一个音素字典,音素字典的个数作为嵌入层的维度,对文本的音素进行表征,即通过深度学习中的Embedding将音素映射到一个特征向量;
(2)由CBHG模块对表征的特征进行编码,表征的特征指深度学习中的特征向量,编码是指将表征的特征通过CBHG模块进行映射到另外一种特征向量;
(3)时长模型:将文本编码的结果作为输入,经过3层的卷积神经网络和1层全连接层对每个音素的持续时间进行预测,持续时间指的是网络预测的一个时长;
(4)预测结果与真实的标签作比对,对时长模型进行优化;预测结果就是网络对时长的预测,真实标签就是每个音素真实的时长,网络预测的时长和训练集中音素的真实时长去计算误差,然后不断减少这个误差即对时长模型进行优化;
(5)语音解码:将经过时长模型扩充后的特征经过一个2层的双向长短期记忆网络进行解码,解码出的结果组合成一个复数的特征,和从原始音频中短时傅里叶变换提取的复数特征是对应的;
(6)解码出的复数特征经短时傅里叶逆变换,还原为语音波形。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州小影创新科技股份有限公司,未经杭州小影创新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110906779.3/2.html,转载请声明来源钻瓜专利网。