[发明专利]音频分类方法、装置及计算机可读存储介质有效
申请号: | 201810332491.8 | 申请日: | 2018-04-13 |
公开(公告)号: | CN108538311B | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 王征韬;张庆 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 滕一斌 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 分类 方法 装置 计算机 可读 存储 介质 | ||
1.一种音频分类方法,其特征在于,所述方法包括:
采集音频信号;
对所述音频信号进行截取或补充,以将所述音频信号的时长调整为预设时长;
根据所述音频信号的频率信息,将所述音频信号转换为目标音频;
通过预设分类器中包括的卷积网络提取所述目标音频的音频特征;
通过所述预设分类器中包括的门限循环网络提取所述音频特征的时序特征;
根据所述时序特征,通过所述预设分类器中包括的全连接网络确定所述目标音频的类别为多个预设类别标识中每个预设类别标识所标识的预设类别的概率;
将所述多个预设类别标识中概率最大的预设类别标识所标识的预设类别确定为所述目标音频的类别。
2.如权利要求1所述的方法,其特征在于,所述通过预设分类器中包括的卷积网络提取所述目标音频的音频特征,包括:
通过所述卷积网络将所述目标音频分成多个音频片段;
通过所述卷积网络将所述多个音频片段中的每个音频片段的特征提取为一个特征;
通过所述卷积网络将提取的特征组成所述目标音频的音频特征。
3.如权利要求1所述的方法,其特征在于,所述通过所述预设分类器中包括的门限循环网络提取所述音频特征的时序特征,包括:
通过所述门限循环网络提取所述音频特征的第一时序特征;
通过所述全连接网络确定所述第一时序特征对应的第一分类特征;
将所述第一分类特征中的各个元素代入第一预设函数,得到所述第一分类特征中各个元素的权重,所述第一时序特征中的元素与所述第一分类特征中的元素一一对应;
对于所述第一时序特征中的任一元素A,将元素A在所述第一分类特征中对应的元素的权重与元素A相乘,得到元素A对应的第一元素;
将所述第一时序特征中的各个元素替换为对应的第一元素,得到第二时序特征作为所述音频特征的时序特征。
4.如权利要求1所述的方法,其特征在于,所述根据所述时序特征,通过所述预设分类器中包括的全连接网络确定所述目标音频的类别为多个预设类别标识中每个预设类别标识所标识的预设类别的概率,包括:
通过所述全连接网络确定所述时序特征的第二分类特征;
通过所述全连接网络将所述第二分类特征中的元素代入第二预设函数,得到所述目标音频的类别为所述多个预设类别标识中每个预设类别标识所标识的预设类别的概率。
5.如权利要求1所述的方法,其特征在于,所述预设分类器还包括批规范化网络和池化网络中的至少一个。
6.如权利要求1所述的方法,其特征在于,所述根据所述音频信号的频率信息,将所述音频信号转换为所述目标音频,包括:
确定所述音频信号的梅尔频率倒谱系数MFCC,根据所述音频信号的MFCC,生成所述目标音频;或者,
确定所述音频信号的频谱,根据所述音频信号的频谱,生成所述目标音频。
7.如权利要求1所述的方法,其特征在于,所述通过预设分类器中包括的卷积网络提取所述目标音频的音频特征之前,还包括:
获取多个训练音频集,所述多个训练音频集中的每个训练音频集包括的所有训练音频对应同一预设类别标识;
使用所述多个训练音频集对待训练的分类模型进行训练,得到所述预设分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810332491.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种石英玻璃的退火方法
- 下一篇:一种多齿轮传动的单刀铜排开孔设备