[发明专利]一种基于深度学习的语音合成方法有效

专利信息
申请号: 202110430708.0 申请日: 2021-04-21
公开(公告)号: CN113112985B 公开(公告)日: 2022-01-18
发明(设计)人: 安鑫;代子彪;李阳;孙晓 申请(专利权)人: 合肥工业大学
主分类号: G10L13/02 分类号: G10L13/02;G10L13/04;G10L25/24;G10L19/16;G10L25/30
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230009 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 语音 合成 方法
【说明书】:

发明公开了一种基于深度学习的语音合成方法,包括:1、对输入文本进行标准化处理,去除无效字符;2、增加位置编码,使输入信号在前向和后向传播时任意位置间的间隔缩短;3、构建基于BERT的端到端神经网络模型,经过训练能快速的将输入的文本信息转化为梅尔频谱帧;4、使用预训练模型WaveGlow将生成的梅尔频谱帧转化为高质量的音频。本发明能充分利用GPU的并行计算能力从而获得更快的训练速度和预测速度,并能从输入序列中获取远距离信息,使其在长文本语音合成中效果跟好,进而在实际使用过程中能更好的满足高效、高质量的需求。

技术领域

本发明属于自然语言处理,语音合成技术,深度学习技术领域,具体的说是一种基于深度学习的语音合成方法。

背景技术

语音合成作为实现人机语音交互系统的核心技术之一,是语音处理技术中一个重要的方向,其应用价值越来越受到重视。作为人机语音交互的出口,语音合成的效果直接影响到人机交互的体验。一个高质量的、稳定的语音合成系统能够让机器更加地拟人化,使人机交互过程更加自然。

近年来,随着人工神经网络的迅速发展,端到端的语音合成模型取得了更好的效果,例如Tacotron以及Tacotron2等。它们直接从文本产生梅尔频谱图,然后再通过Griffin-Lim算法或者WaveNet的声码器合成音频结果。通过端到端的神经网络,合成的音频质量有了极大的提高,甚至可以与人类录音相媲美。

这些端到端模型多用RNN作为编码器和解码器。然而,RNN作为一种自回归模型,其第i步的输入包含了第i-1步输出的隐藏状态,这种时序结构限制了训练和预测过程中的并行计算能力。此外,这种结还会导致当输入序列过长时来自许多步骤之前的信息在传递过程中逐渐消失进而使生成的上下文信息存在偏差的问题。

发明内容

本发明是为了解决上述现有技术存在的不足之处,提出一种基于深度学习的语音合成方法,以期能充分利用GPU的并行计算能力从而获得更快的训练速度和预测速度,并能从输入序列中获取远距离信息,使其在长文本语音合成中效果跟好,进而在实际使用过程中能更好的满足高效、高质量的需求。

本发明为达到上述发明目的,采用如下技术方案:

本发明一种基于深度学习的语音合成方法的特点是按如下步骤进行:

步骤1、建立文本数据库和音频数据库,所述文本数据库中的每个文本与所述音频数据库中的每个音频用编号相对应,从而得到N条原始数据,记为W={W(1),W(2),…,W(n),…,W(N)},W(n)表示第n条原始数据,且W(n)=Audion,Textn;Audion表示第n条音频,Textn表示第n个文本,n=1,2,…,N;

步骤2、对第n个文本Textn进行标准化处理,得到预处理后的第n个文本Textn′;

将所述预处理后的第n个文本Textn′中的字符串转化为字符,并用one-hot向量表示每个字符,从而得到向量化后的第n个文本向量,记为其中,表示第n个文本向量的第i个字符,i=1,2,…,m,m为字符串长度;

步骤3、利用梅尔频率倒谱系数对第n条音频Audion进行语音特征提取,得到第n条语音信息特征MFCCn,从而与所述向量化后的第n个文本向量Cn共同构成第n条训练数据W′(n)=MFCCn,Cn

步骤4、构建基于BERT模型的编码器神经网络,包括:多头注意力层、两个残差连接与归一化层、双层全连接层、单层全连接层;所述多头注意力层是由h个点积注意力组成;所述双层全连接层、单层全连接层中设置有概率为p的Dropout函数以及神经元的激活函数tanh;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110430708.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top