[发明专利]基于表现力的语音合成方法、系统、电子设备及存储介质有效
申请号: | 202210218342.5 | 申请日: | 2022-03-08 |
公开(公告)号: | CN114333762B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 路文焕;张凯莉 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L13/027 | 分类号: | G10L13/027;G10L25/30 |
代理公司: | 北京和联顺知识产权代理有限公司 11621 | 代理人: | 郭苗苗 |
地址: | 300000*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 表现力 语音 合成 方法 系统 电子设备 存储 介质 | ||
本发明公开了一种基于表现力的语音合成方法、系统、电子设备及存储介质。该合成系统由预训练后的ASR模型和改进的TTS模型联合组成;ASR模型用于将音频序列转换为文本序列,改进的TTS模型由改进的Tacotron模型和神经声码器组成,改进的Tacotron模型在原始Tacotron模型的基础上添加了共享层和风格编码器;共享层用于将TTS模型和ASR模型整合到一个网络中,风格编码器用于从参考音频中提取风格嵌入信息;神经声码器将声学特征重建音频。本发明提出的表现力语音合成系统有助于提取到理想状态的风格向量,解决了内容泄露的问题,显著提升了语音合成的表现力和准确率。
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于表现力的语音合成方法、系统、电子设备及存储介质。
背景技术
语音合成(Speech synthesis)又称文语转换(Text-to-speech,TTS),目的是将输入的文本转换成流畅自然的语音。语音合成是实现智能人机语音交互的关键技术,并且在很多领域已经广泛使用,例如智能机器人,智能客户服务,会议助理等等。近几年来,随着深度神经网络技术的发展,端到端语音合成技术得到了迅速的发展,语音的自然度已经接近于真实人类的声音。但是目前大多数合成的语音缺乏表现力,由于没有情感的互动,听众常常觉得无聊或者不满意。目前越来越多的应用需要高表现力的合成语音。例如,有声读物,新闻阅读器,会议助理等。
现有技术中,关于表现力语音合成的研究主要是从参考音频中学习韵律和整体风格的潜在表示,然后将这种潜在表示与文本信息结合,实现合成语音风格的迁移和控制。在表现力语音合成的研究中,最近常用无监督的方法是基于全局风格标记(Global StyleTokens)。这个方法使得合成音频的风格模仿参考音频的风格。具体的说,参考音频经过一个风格编码器提取出风格信息,这个风格信息隐式的包含了例如节奏、时长、能量、基频等声学特征,但是这个提取的风格信息耦合了一定的内容信息,从而导致合成语音质量的下降。这是因为在模型训练阶段,输入的文本内容与参考音频的内容是一致的,导致风格编码器对参考音频中的一些内容进行编码。但是在推理阶段,当输入的文本内容与参考音频内容不一致时,解码器将从风格信息中得到内容,这将与实际输入的文本信息发生冲突。因此合成的语音将受到一定的影响,出现错词,漏词,模糊词等问题,这种现象称为“内容泄露”。内容泄露问题对合成语音的质量有显著的负面影响。
目前,实现风格信息和内容的信息的解耦主要有三种方法:第一种是对模型训练添加辅助任务,例如添加了语音识别(ASR)引导的模型训练任务,他们使用未配对的文本和参考音频对TTS模型进行训练,使用预训练的ASR模型的词错率作为TTS模型的额外的学习目标,来阻止参考编码器编码文本信息;第二种是使用对抗训练的方式解耦风格信息中内容信息;第三种是使用信息瓶颈的思想,迫使模型只关注风格信息。但是,上述方法并没有达到良好的解耦效果,合成的语音还是受到一定的影响。
发明内容
因此,本发明的目的在于提供一种基于表现力的语音合成方法、系统、电子设备及计算及存储介质,解决现有语音合成技术中存在的内容泄露的问题,实现风格信息和内容的信息的解耦。
为了实现上述目的,本发明的一种基于表现力的语音合成方法,包括以下步骤:
S1、将预训练的ASR模型和改进的TTS模型进行联合训练后,作为联合训练模型;
S2、获取输入文本和参考音频序列;作为联合训练模型的输入信息;
S3、利用预训练的ASR模型,从参考音频序列中提取高维的隐式特征;
S4、利用改进的TTS模型去除所述高维的隐式特征中的内容信息,生成纯净的风格嵌入信息;
S5、将输入文本生成文本嵌入信息,将所述文本嵌入信息与所述风格嵌入信息结合后,输入改进的TTS模型中的解码器,预测出声学特征梅尔谱和线性谱,利用神经声码器将预测的梅尔谱进行音频重构,得到目标风格的音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210218342.5/2.html,转载请声明来源钻瓜专利网。