[发明专利]音频生成方法、装置、计算机可读存储介质及计算设备在审

申请号：	201911267158.4	申请日：	2019-12-11
公开（公告）号：	CN111028823A	公开（公告）日：	2020-04-17
发明（设计）人：	肖纯智;劳振锋	申请（专利权）人：	广州酷狗计算机科技有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/033
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	邢惠童
地址：	510660 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频生成方法装置计算机可读存储介质计算设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请是关于一种音频生成方法、装置、计算机可读存储介质及计算设备，属于电子技术应用领域。方法包括：获取多个发音信息，其中，多个发音信息包括至少一个第一发音信息，每个第一发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、目标音素的相邻音素的内容以及连音指示符，其中，任一目标音素的相邻音素包括任一目标音素的前一个音素和后一个音素，连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音；将多个发音信息输入音频合成模型，得到音频合成模型输出的目标音频，多个发音信息中的每个发音信息对应的音频帧为目标音频中的一个音频帧。本申请能够提高输出音频的质量。

技术领域

本申请涉及电子技术应用领域，特别涉及一种音频生成方法、装置、计算机可读存储介质及计算设备。

背景技术

音频合成模型是一种用于进行音频合成的模型。通过音频合成模型可以合成歌曲等音频。

目前采用音频合成模型生成音频的过程包括：经过模型训练过程，得到音频合成模型，将多个发音信息(condition)输入音频合成模型，由音频合成模型输出目标音频。该多个发音信息与输出的目标音频包括的多个音频帧一一对应，每个发音信息用于描述对应的音频帧的音频特征。通常，每个发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、目标音素的前一个音素的内容以及后一个音素的内容。

但是，真人演唱的歌曲实际是由人的声腔变化而形成的，采用前述音频合成模型生成的歌曲，无法有效反映人的声腔变化过程，导致输出音频的质量较差。

发明内容

本申请实施例提供了一种音频生成方法、装置、计算机可读存储介质及计算设备，能够提高生成的音频的质量。所述技术方案如下：

根据本申请实施例的第一方面，提供一种音频生成方法，包括：

获取多个发音信息，其中，所述多个发音信息包括至少一个第一发音信息，每个所述第一发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、所述目标音素的相邻音素的内容以及连音指示符，其中，任一目标音素的相邻音素包括所述任一目标音素的前一个音素和后一个音素，所述连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音，所述多个发音信息中的每个发音信息对应的音频帧为所述目标音频中的一个音频帧；

将所述多个发音信息输入音频合成模型，得到所述音频合成模型输出的目标音频。

可选地，在所述获取多个发音信息之前，所述方法还包括：

对样本音频进行分析，得到多个样本发音信息，所述多个样本发音信息包括至少一个第二发音信息，每个所述第二发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、所述目标音素的相邻音素的内容以及连音指示符，所述多个样本发音信息中的每个样本发音信息对应的音频帧为所述样本音频中的一个音频帧；

基于所述多个样本发音信息，进行模型训练，得到所述音频合成模型。

可选地，所述对样本音频进行分析，得到多个样本发音信息，包括：

获取所述样本音频中每个音频帧的音高；

检测所述样本音频中每个音素与相邻的音素是否存在连音，得到连音检测结果；

基于所述每个音频帧的音高以及所述连音检测结果，生成所述多个样本发音信息。

可选地，所述检测所述样本音频中每个音素与相邻的音素是否存在连音，得到连音检测结果，包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州酷狗计算机科技有限公司，未经广州酷狗计算机科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】