[发明专利]音频处理方法、装置、存储介质及电子设备在审
申请号: | 202010684888.0 | 申请日: | 2020-07-16 |
公开(公告)号: | CN111859011A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 杨伟明 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06F16/68;G06N3/04;G06N3/08;G10L25/51;G10L25/27;G10L25/03 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 彭绪坤 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 存储 介质 电子设备 | ||
1.一种音频处理方法,其特征在于,包括:
获取音频文件;
将所述音频文件输入至预先训练好的特征提取模型,以使所述特征提取模型根据所述音频文件的父类别将所述音频文件划分为多个音频块以及提取每一音频块的音频特征;
根据每一音频块的音频特征,利用训练好的预设分类模型对每一音频块进行分类,得到每一音频块的分类结果;
根据各音频块的分类结果,确定所述音频文件的子类别。
2.根据权利要求1所述的音频处理方法,其特征在于,所述根据各音频块的分类结果,确定所述音频文件的子类别,包括:
根据各音频块的分类结果,统计各子类别所包含的音频块的数量;
将所包含的音频块的数量最大的类别确定为所述音频文件的子类别。
3.根据权利要求1所述的音频处理方法,其特征在于,将所述音频文件输入至预先训练好的特征提取模型,包括:
若所述音频文件为多声道的音频,则将所述音频文件由多声道转换为单声道;
将转换为单声道后的音频文件输入至预先训练好的特征提取模型。
4.根据权利要求1所述的音频处理方法,其特征在于,将所述音频文件输入至预先训练好的特征提取模型,以使所述特征提取模型根据所述音频文件的父类别将所述音频文件划分为多个音频块,包括:
将所述音频文件输入至预先训练好的特征提取模型,以使所述特征提取模型根据所述音频文件的父类别确定与所述父类别对应的分块参数,并依据所述分块参数将所述音频文件划分为多个音频块。
5.根据权利要求4所述的音频处理方法,其特征在于,所述特征提取模型的训练过程包括:
获得多种父类别的音频文件样本;
将所述多种父类别的音频文件样本输入至预设的特征提取模型进行训练,以得到不同所述父类别各自对应的模型参数,所述模型参数用于供所述特征提取模型将所述音频文件划分为多个音频块以及提取每一音频块的音频特征。
6.根据权利要求1所述的音频处理方法,其特征在于,所述预设分类模型含有残差网络模块以及批量归一化模块。
7.根据权利要求1所述的音频处理方法,其特征在于,所述预设分类模型的训练过程包括:
获取正样本数据以及负样本数据,其中,所述正样本数据为目标子类别的音频文件,所述负样本数据为非目标子类别的音频文件;
将所述正样本数据和所述负样本数据中的每一样本数据划分为多个音频块,并提取每一音频块的音频特征;
利用所述正样本数据和所述负样本数据中的每一音频块的音频特征对预先选取的模型进行学习训练,得到预设分类模型。
8.一种音频处理装置,其特征在于,包括:
获取单元,用于获取音频文件;
提取单元,用于将所述音频文件输入至预先训练好的特征提取模型,以使所述特征提取模型根据所述音频文件的父类别将所述音频文件划分为多个音频块以及提取每一音频块的音频特征;
分类单元,用于根据每一音频块的音频特征,利用训练好的预设分类模型对每一音频块进行分类,得到每一音频块的分类结果;
确定单元,用于根据各音频块的分类结果,确定所述音频文件的子类别。
9.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上执行时,使得所述计算机执行如权利要求1至7中任一项所述的方法。
10.一种电子设备,包括存储器,处理器,其特征在于,所述处理器通过调用所述存储器中存储的计算机程序,用于执行如权利要求1至7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010684888.0/1.html,转载请声明来源钻瓜专利网。