[发明专利]音频合成模型生成方法及装置、音频合成方法及装置有效

申请号：	202110438286.1	申请日：	2021-04-22
公开（公告）号：	CN113192522B	公开（公告）日：	2023-02-21
发明（设计）人：	张冉;王晓瑞	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G10L19/02	分类号：	G10L19/02;G10L19/16;G10L13/027
代理公司：	北京中博世达专利商标代理有限公司 11274	代理人：	申健
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频合成模型生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音频合成模型生成方法，其特征在于，包括：

获取第一音频数据的特征、第二音频数据的特征、样本音频的类型信息和频谱信息；所述样本音频为所述第一音频数据和所述第二音频数据合成得到；所述第一音频数据包括语音音频和语音文本，所述第二音频数据包括唱歌音频和歌词文本；

对所述第一音频数据的特征和所述第二音频数据的特征进行特征合并，得到目标特征，所述目标特征用于表征所述第一音频数据和所述第二音频数据所合成的目标音频的特征；

基于所述目标特征对所述目标音频的进行类型识别和频谱识别，分别得到所述目标音频的类型信息和频谱信息；

根据所述样本音频的类型信息和所述目标音频的类型信息，确定第一信息，并根据所述样本音频的频谱信息和所述目标音频的频谱信息，确定第二信息；所述第二信息用于表征所述样本音频的频谱信息和所述目标音频的频谱信息之间的差异；所述根据所述样本音频的类型信息和所述目标音频的类型信息，确定第一信息包括：根据所述样本音频的类型信息和所述目标音频的类型信息，计算所述样本音频的类型信息和所述目标音频的类型信息之间差异值；根据所述差异值以及反向传播算法得到所述第一信息；

根据所述第一信息和所述第二信息，生成音频合成模型。

2.根据权利要求1所述的方法，其特征在于，所述获取第一音频数据的特征，包括：

对所述第一音频数据进行音素识别，得到所述第一音频数据的音素特征；

对所述第一音频数据进行基频识别，得到所述第一音频数据的基频特征；

将所述第一音频数据的音素特征和所述第一音频数据的基频特征进行拼接，得到所述第一音频数据的特征。

3.根据权利要求1所述的方法，其特征在于，所述获取第二音频数据的特征，包括：

对所述第二音频数据进行音素识别，得到所述第二音频数据的音素特征；

对所述第二音频数据进行基频识别，得到所述第二音频数据的基频特征；

将所述第二音频数据的音素特征和所述第二音频数据的基频特征进行拼接，得到所述第二音频数据的特征。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述第一信息最小且所述第二信息最小的情况下，更新所述音频合成模型中的特征提取网络的参数。

5.根据权利要求1所述的方法，其特征在于，根据所述样本音频的频谱信息和所述目标音频的频谱信息，确定第二信息，包括：