[发明专利]音频数据处理方法、装置、终端设备以及存储介质在审

申请号：	202111255819.9	申请日：	2021-10-27
公开（公告）号：	CN113990329A	公开（公告）日：	2022-01-28
发明（设计）人：	吴康健	申请（专利权）人：	腾讯音乐娱乐科技（深圳）有限公司
主分类号：	G10L19/00	分类号：	G10L19/00;G10L19/04;G10L25/27
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	熊永强;杜维
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频数据处理方法装置终端设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音频数据处理方法，其特征在于，所述方法包括：

获取第一音频数据对应的第一音高特征序列；

通过编码器对所述第一音高特征序列进行编码处理，并获取经所述编码器处理得到的第一编码特征向量，所述编码器根据多个样本音频对训练得到；

将所述第一编码特征向量输入音准识别网络，通过所述音准识别网络确定所述第一音频数据的音准识别结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取与目标样本音频对对应的音高特征序列相关联的掩码音高特征序列，所述目标样本音频对包括第一音频片段和第二音频片段，所述目标样本音频对为所述多个样本音频对中的任一个样本音频对；

通过初始编码器确定所述掩码音高特征序列对应的编码特征向量，并分别根据音高字符分类网络对所述编码特征向量进行音高字符预测处理，得到所述掩码音高特征序列中包括k个掩码字符对应的音高字符预测结果，以及根据音频片段识别网络对所述编码特征向量进行音频分类预测处理，得到对所述目标样本音频对中所述第一音频片段和所述第二音频片段是否来源于同一音频的音频分类预测结果，k为大于0的整数；

根据所述音高字符预测结果和所述音频分类预测结果调整所述初始编码器的网络参数，得到所述编码器。

3.根据权利要求2所述方法，其特征在于，所述编码特征向量为m×h维特征矩阵；所述根据音频片段识别网络对所述编码特征向量进行音频分类预测处理，得到对所述目标样本音频对中所述第一音频片段和所述第二音频片段是否来源于同一音频的音频分类预测结果，包括：

对所述编码特征向量进行全局平均池化处理，得到音频特征向量，所述音频特征向量为1×h维特征向量；

将所述音频特征向量输入所述音频片段识别网络，通过所述音频片段识别网络确定所述第一音频片段和所述第二音频片段是否来源于同一音频，以得到音频分类预测结果。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述音高字符预测结果和所述音频分类预测结果调整所述初始编码器的网络参数，得到所述编码器，包括：

根据所述k个掩码字符对应的音高字符预测结果和掩码处理前所述k个掩码字符所在字符位置对应的k个音高字符确定第一损失函数；

根据所述音频分类预测结果和所述目标音频对对应的音频分类标签确定第二损失函数，以根据所述第一损失函数和所述第二损失函数调整所述初始编码器的网络参数，得到所述编码器。

5.根据权利要求4所述方法，其特征在于，所述根据所述第一损失函数和所述第二损失函数调整所述初始编码器的网络参数，包括：

根据所述第一损失函数和所述第二损失函数确定联合损失函数；

根据所述联合损失函数调整所述初始编码器的网络参数。

6.根据权利要求2-5任一项所述的方法，其特征在于，所述获取与目标样本音频对对应的音高特征序列相关联的掩码音高特征序列，包括：

获取所述目标样本音频对对应的音高特征序列，所述音高特征序列包括m个音高字符；