[发明专利]语音合成方法、装置以及电子设备有效

申请号：	201910888456.9	申请日：	2019-09-19
公开（公告）号：	CN110473516B	公开（公告）日：	2020-11-27
发明（设计）人：	孙晨曦;孙涛;祝晓林;王文富	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/08;G10L25/18;G10L25/24;G10L25/30
代理公司：	北京市铸成律师事务所 11313	代理人：	徐瑞红;阎敏
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置以及电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语音合成方法、装置以及电子设备，涉及语音合成领域。具体实现方案为：将文本信息输入至声学模型的编码器中，输出当前时间步的文本特征；将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征，输入至声学模型的译码器中，得到当前时间步的谱特征；将当前时间步的谱特征输入至神经网络声码器中，输出语音。将自回归的声学模型和神经网络声码器结合，使得在节省硬件资源，加快语音合成速度的同时，提高合成语音的自然度和音质。

技术领域

本申请涉及一种深度学习领域，尤其涉及一种语音合成领域。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术。是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。具体的，首先将文本转换为紧凑的音频表示，然后使用称为声码器的音频波形合成方法将这种表示转换为音频。例如，目前的智能设备在播放语音是需要对语音进行合成。然而，目前的语音设备合成声音时，声音无法自然流畅的过度，音质较差，语音合成速度较慢。

发明内容

本申请实施例提供一种语音合成方法、装置以及电子设备，以解决现有技术中的一个或多个技术问题。

第一方面，提供了一种语音合成方法，包括：

将文本信息输入至声学模型的编码器中，输出当前时间步的文本特征；

将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征，输入至声学模型的译码器中，得到当前时间步的谱特征；

将当前时间步的谱特征输入至神经网络声码器中，输出语音。

在本实施方式中，将上一时间步的谱特征与当前时间步的文本特征拼接得到的当前时间步的拼接特征，输入至声学模型的译码器中，得到当前时间步的谱特征。声学模型通过引入自回归，在训练数据量较少的情况下也可以产生高还原度、高自然度的语音。将每次自回归后得到的当前时间步的谱特征输入至神经网络声码器中，得到合成后的语音。神经网络声码器可以在通用的设备上实现实时且高音质的声音，同时还能减少计算量，提供合成速度。将自回归的声学模型和神经网络声码器结合，使得在节省硬件资源，加快语音合成速度的同时，提高合成语音的自然度和音质。

在一种实施方式中，将文本信息输入至声学模型的编码器中，输出当前时间步的文本特征，包括：

文本信息经过编码器中的至少一层全连接层和门控循环单元，输出当前时间步的文本特征。

在本实施方式中，文本信息经过至少一层全连接层和门控循环单元后，有效提取了上下文信息，使得合成语音的表达更加流畅。

在一种实施方式中，将当前时间步的文本特征与上一时间步的谱特征拼接得到的当前时间步的拼接特征，输入至声学模型的译码器中，得到当前时间步的谱特征，包括：

将上一时间步的拼接特征输入至译码器中的至少一个门控循环单元和全连接层，输出上一时间步的第一谱特征；

将上一时间步的第一谱特征输入至另一全连接层，得到上一时间步的第二谱特征；

将当前时间步的文本特征与上一时间步的第二谱特征拼接，得到当前时间步的拼接特征；

将当前时间步的拼接特征输入至声学模型的译码器中，得到当前时间步的第一谱特征。

在本实施方式中，可以将上一时间步的第一谱特征或上一时间步的第二谱特征，与当前时间步的文本特征拼接，输入至声学模型的译码器中，得到当前时间步的第一谱特征。译码器中形成自回归的谱特征，在训练数据量较少的情况下也可以产生高还原度、高自然度的语音。

在一种实施方式中，将当前时间步的谱特征输入至神经网络声码器中，输出语音，包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载