[发明专利]基于变分自动编码器的跨语句语音合成方法、系统及设备在审
申请号: | 202210220764.6 | 申请日: | 2022-03-08 |
公开(公告)号: | CN114566141A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 李阳;郁程;孙芳蕾;田政;汪军;张超;孙广智;蒋桦 | 申请(专利权)人: | 上海科技大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L25/24 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李治东 |
地址: | 201210 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自动 编码器 语句 语音 合成 方法 系统 设备 | ||
本发明提供一种基于变分自动编码器的跨语句语音合成方法、系统及设备,通过将跨语句信息与用以增强韵律的变分自动编码器有机结合,提出了基于变分自动编码器的跨语句语音合成系统,通过条件化声学特征、说话人信息和当前及周围语句中获得的文本特征,来估计每个音素潜在韵律特征的后验概率分布;该系统包括跨语句表征模块和韵律增强模块,通过使用多头注意力层生成音素级别的跨语句表征,并将跨语句表征模块的输出作为韵律增强模块的特定语句的先验条件,以改进标准变分自动编码器。本申请不仅提升了合成语音的自然度,改善了合成语音的韵律变化,同时解决了推理时系统所采样的标准高斯先验和语音的真实先验之间不一致的问题。
技术领域
本申请涉及语音合成技术领域,特别是涉及一种基于变分自动编码器的跨语句语音合成方法、系统及设备。
背景技术
语音合成技术,是对人类语音的人工制作,目标是将任意输入文本转换为清晰可懂、自然且富有表现力的语音。第一台电子语音合成器诞生于1937年,从那时起语音合成技术经历了各种技术改进。九十年代初,随着基音同步叠加(PSOLA)方法的提出,大幅提高了合成语音的音色和自然度。近年来伴随着深度学习的快速发展,端到端语音合成的出现在简化合成系统的同时,减少了人工干预和对语言学相关背景知识的要求。借助于深度学习模型的强表达能力,端到端语音合成系统可以生成听起来几乎和人类一样自然的语音。然而,基础的端到端语音合成系统由于缺少音调、重音和节奏等韵律信息,对长篇文本(如有声读物或口语对话)的合成语音结果缺乏表现力,因此最近研究者对如何生成韵律、情感更丰富的语音进行了大量的研究。
一些工作使用了风格标记或变分自动编码器(VAEs)来捕获韵律特征,通过提取音素或单词级别的声音特征实现了细粒度的声音建模和声音控制。然而,基于变分自动编码器的语音合成系统在推理过程中从标准的高斯先验进行采样,导致韵律变化不自然并缺乏对韵律变化的有效控制。此外,研究者致力于在输入特征中加入跨语句信息,将预训练的语言模型,如变换器(Transformer)的代表双向编码器(BERT)应用于语音合成系统,依据从语篇或片段中预训练得到的文本表征来估测韵律特征,但现有工作仅对跨语句信息进行简单利用,改善合成语音韵律的效果有限。
随着深度学习的发展,非自回归语音合成系统在高效和保真方面都取得了进展。非自回归语音合成系统将输入文本序列映射为声学特征或波形序列,而不使用输出概率的自回归分解。一些非自回归语音合成系统,如FastSpeech和ParaNet,需要从自回归模型中进行提炼。最新的非自回归式语音合成系统,例如FastPitch、AlignTTS和FastSpeech2,不依赖于任何形式的来自预训练的TTS系统的知识提炼。
基于一个常用的非自回归式的端到端TTS系统FastSpeech2,FastSpeech2在训练时使用了音高轮廓和信号振幅作为标签进行监督,能够从编码器输出中预测包括音高和能量的韵律信息。然而FastSpeech2未对跨语句信息进行建模,且仅从真实语音中提取了音高与能量信息,未能充分利用韵律中丰富的隐式特征,因此合成语音缺少足够的表现力与韵律多样性。
由于韵律信息可以从当前句子和周围语句的语言信息中推断出来,且这种信息通常包含在来自预训练语言模型(如双向编码器BERT)的向量表征中,一些现有研究将单词或子词级别的双向编码器BERT向量表征纳入了自回归语音合成模型,最近的研究使用了双向编码器BERT的分块和成对的句子模式。也有一些研究将双向编码器BERT与其他技术相结合,包括将双向编码器BERT与一个多任务学习技术相结合,以消除普通话中的多音字到音素的转换,以及将双向编码器BERT向量表征作为关系图网络的节点输入,从中提取词级语义表征,从而提高表达能力。CU-Tacotron2使用基于预训练的BERT模型来提取相邻句子的句子嵌入向量,以端到端的方式改进段落每个话语的韵律生成。该方法可以提高合成语音的自然度和表现力,但合成语音韵律表现较差,无法合成具有足够的表现力与韵律多样性的音频。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海科技大学,未经上海科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210220764.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种教育平台资源缓存控制系统及方法
- 下一篇:一种可任意调整位置的防攀爬装置