[发明专利]一种基于韵律边界的语音合成方法及装置、介质、设备在审
申请号: | 202011031529.1 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112151009A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 孙奥兰;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L13/027 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 518000 广东省深圳市福田街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 韵律 边界 语音 合成 方法 装置 介质 设备 | ||
本发明提供了一种基于韵律边界的语音合成方法及装置、介质、设备,该方法包括:获取待合成文本信息的韵律边界信息,基于韵律边界信息生成图嵌入信息;生成图嵌入信息的隐状态向量以及待合成文本信息的序列编码;基于隐状态向量和序列编码生成语音语谱;依据语音语谱合成待合成文本信息的语音信息。基于本发明提供的方法,可以从文本侧分析句子的语义和语法结构,将韵律边界通过图嵌入来表示,使得文本中的韵律信息能够充分的参与训练与推理,提升所合成语音信息的韵律感。本发明还涉及区块链技术,隐状态向量以及待合成文本信息的序列编码等数据存储于区块链中,从而提高数据存储的安全性。
技术领域
本发明涉及语音合成技术领域,特别是一种基于韵律边界的语音合成方法及装置、介质、设备。
背景技术
在基于深度学习的语音合成系统(TTS)中,韵律是决定合成语音自然度和流畅度的重要因素。韵律可以被细分为3维特征,基频,响度和时长。在端到端语音合成系统中,学术界和工业界尝试从语音的MEL语谱中提取韵律嵌入的隐状态,然后一个全局风格向量被引入到多头注意力机制中训练,用于控制合成语音整句的韵律效果;变分自动编码器被用来作为韵律分类器,用于在多种韵律数据集中学习到韵律嵌入的隐状态;为了获得更精准的局部韵律控制,一部分学者尝试采用更细粒度的特征来精准地局部控制韵律特征。
这些方法尝试从语音侧来分析韵律信息,即从频域的语谱信息中提取韵律特征,因为一段语音的韵律能够在频域得到充分的展示,但是它不能够充分表示输入文本序列的语义和语法信息,但是文本侧信息很大程度上决定了一句话的局部韵律信息,因此合成语音的韵律效果常常不符合文本内容的韵律节奏。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于韵律边界的语音合成方法及装置、介质、设备。
根据本发明的一个方面,提供了一种基于韵律边界的语音合成方法,包括:
获取待合成文本信息的韵律边界信息,基于所述韵律边界信息生成图嵌入信息;
基于预设的神经网络模型生成所述图嵌入信息的隐状态向量和所述待合成文本信息的序列编码;
基于所述隐状态向量和序列编码生成语音语谱;
依据所述语音语谱合成所述待合成文本信息的语音信息。
可选地,所述获取待合成文本信息的韵律边界信息,基于所述韵律边界信息生成图嵌入信息,包括:
将所述待合成文本信息按照预设韵律边界结构划分为多个层级;其中,所述层级包括韵律词、韵律短语;
获取所述待合成文本信息中对应各韵律词的第一向量;
将属于同一韵律短语的多个所述第一向量进行两两组合,生成对应各不同组合的的第二向量;
基于所述第一向量和所述第二向量组合形成图嵌入信息。
可选地,基于预设的神经网络模型生成所述图嵌入信息的隐状态向量,包括:
将所述图嵌入信息作为输入向量输入第一预设神经网络模型;其中,所述第一神经网络模型为预先训练的至收敛状态,用于对图嵌入信息进行编码转换的神经网络模型;
获取所述第一神经网络模型输出的对应各所述韵律短语的隐状态向量。
可选地,基于预设的神经网络模型生成所述待合成文本信息的序列编码,包括:
将所述待合成文本信息转换为字符信息,依据所述字符信息形成字符图嵌入信息;
将所述字符图嵌入信息输入第二预设神经网络模型,其中,所述第二预设神经网络模型为预先训练至收敛状态,用于对文本进行编码转换的神经网络模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011031529.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有温度显示功能的水杯
- 下一篇:一种聚氨酯切片加工处理系统