[发明专利]语音合成方法、装置、可读介质及电子设备在审

申请号：	202110711386.7	申请日：	2021-06-25
公开（公告）号：	CN113421550A	公开（公告）日：	2021-09-21
发明（设计）人：	梅晓;梁莹;马泽君	申请（专利权）人：	北京有竹居网络技术有限公司
主分类号：	G10L13/10	分类号：	G10L13/10;G10L13/02
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	曹寒梅
地址：	101299 北京市平***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置可读介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种语音合成方法、装置、可读介质及电子设备，以提升语音合成的自然度、表现力。所述方法包括：确定待合成文本的韵律标注信息，所述韵律标注信息包括韵律边界信息、音高重音信息、边界调信息中的至少一者；确定所述待合成文本对应的音素序列；根据所述待合成文本的韵律标注信息，确定音素级别的韵律标签，所述韵律标签包括韵律边界标签、音高重音标签、边界调标签中的至少一者；根据所述音素序列和所述韵律标签，利用语音合成模型，生成与所述待合成文本对应的合成音频；其中，所述语音合成模型基于带有韵律标注信息的第一训练文本和所述第一训练文本对应的训练音频获得。

技术领域

本公开涉及计算机技术领域，具体地，涉及一种语音合成方法、装置、可读介质及电子设备。

背景技术

语音合成技术能够将任意文本转换成对应的音频，通常包括两个部分，一部分是对文本进行分析，得到语言学相关的信息，另一部分则是基于分析得出的结果生成声音波形。在相关技术中，通常缺乏对韵律特征的考虑，使得合成语音的韵律(例如，语调、重音、音延、韵律边界等)无法得到有效控制，导致合成后的音频不够自然，缺乏表现力。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种语音合成方法，所述方法包括：

确定待合成文本的韵律标注信息，所述韵律标注信息包括韵律边界信息、音高重音信息、边界调信息中的至少一者；

确定所述待合成文本对应的音素序列；

根据所述待合成文本的韵律标注信息，确定音素级别的韵律标签，所述韵律标签包括韵律边界标签、音高重音标签、边界调标签中的至少一者；

根据所述音素序列和所述韵律标签，利用语音合成模型，生成与所述待合成文本对应的合成音频；

其中，所述语音合成模型基于带有韵律标注信息的第一训练文本和所述第一训练文本对应的训练音频获得。

第二方面，本公开提供一种语音合成装置，所述装置包括：

第一确定模块，用于确定待合成文本的韵律标注信息，所述韵律标注信息包括韵律边界信息、音高重音信息、边界调信息中的至少一者；

第二确定模块，用于确定所述待合成文本对应的音素序列；

第三确定模块，用于根据所述待合成文本的韵律标注信息，确定音素级别的韵律标签，所述韵律标签包括韵律边界标签、音高重音标签、边界调标签中的至少一者；