[发明专利]一种基于深度学习的音频多标签分类方法在审
申请号: | 202011533089.X | 申请日: | 2020-12-22 |
公开(公告)号: | CN112559797A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 陈浩;马文;钟雄虎 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06F16/683;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 音频 标签 分类 方法 | ||
本发明涉及环境声音识别的音频标记领域,特别是涉及一种对带有噪声的音频基于深度学习的多标签分类方法。本发明的内容有:数据预处理包括:使用RNNoise算法对数据集进行降噪处理。音频特征提取包括:首先将音频通过短时傅里叶变换,接着转化成MFCC特征数据,然后输入VGGish网络得到128维high‑level的特征embedding。模型构建包括:确定使用CNN和RNN神经网络,CNN能很好地利用输入数据的二维结构处理语音数据,RNN能很好地利用标签之间的相关性有序预测标签。模型训练包括:跟踪损失函数值和分类误差,更新模型参数,直至得到准确度较高的模型。模型评估包括:定义评价指标并计算平均精度。音频多标签分类包括:加载训练好的模型并将预测的标签概率的结果输出。其流程如图1所示。
技术领域
本发明涉及环境声音识别的音频标记领域,特别是涉及一种对带有噪声的音频基于深度学习的多标签分类方法。具体通过对音频特征提取后,将其作为神经网络的输入进行训练,得到准确度较高的模型,从而进行标签分类。
背景技术
近年来,深度学习在语音识别、图像分类、自动驾驶等领域都得到了广泛的应用,而环境声音识别的分类问题是一个在实际生活中应用非常广泛的问题,目前针对该问题的研究也逐渐成为了一个热点。
传统的单标签分类主要解决的是一个示例只属于一个类别的问题。然而在现实生活中,由于客观物体本身的复杂性和多义性,往往没有绝对的单标签分类问题,通常可能同时与多个类别标签相关。因此,为了更好地体现出实际对象所具有的多语义性,研究者们常使用一个包含多个相关语义标签的子集来描述该对象,多标签分类问题由此形成。对于音频的多标签分类而言,通常使用的方法可分为三大类:问题转换法、算法适用法和集成法。问题转换法是通过某种方法对数据集进行转换,使其从多标签数据集转化成单标签数据集,再利用传统的分类方法进行分类;算法适用法是通过对传统的分类方法进行改进,使其能适应于多标签数据的分类;集成法主要是为了实现更好的分类效果,对常用的问题转换法和算法适用法进行结合来处理多标签分类问题。但由于大多数音频数据都包含着噪声的干扰,因此给分类带来了很大的难度和挑战,使用传统的方法进行分类效果并不理想。
本专利针对上述问题,提出一种基于深度学习的音频多标签分类方法,在对音频数据集提取特征之前进行降噪处理,然后通过构建卷积神经网络(CNN,ConvolutionalNeural Network)对音频数据集进行分类,通过构建循环神经网络(RNN,Recurrent NeuralNetwork)预测标签之间的依赖关系从而输出多个标签。本专利提供了一种在噪声干扰下依然能够对复杂的环境声音进行分类的解决方案,达到了能够同时标记出音频片段中包含的所有类别声音标签的效果。
发明内容
本发明公开了一种基于深度学习的音频多标签分类方法,解决了在噪声干扰下为复杂的环境声音自动分类的问题。本发明的技术方案如图1所示,包括:第一,对音频数据集进行预处理操作,如降噪处理;第二,对音频特征进行提取,选取合适的特征提取方法,如先将音频通过短时傅里叶变换(STFT,Short Ttime Fourier Transform),再转化成梅尔频率倒谱系数(MFCC,Mel Frequency Cepstrum Coefficient)特征数据,然后输入VGGish特征提取器得到特征向量;第三,对模型进行构建,选取两种合适的神经网络CNN和RNN;第四,对模型进行训练,根据每一次训练结束后的损失函数值及验证集准确率不断更新网络参数,不断提高模型的精度,直至得到一个准确度较高的模型;第五,对模型进行评估,根据评价指标的数学定义计算每条测试音频所包含的相关标签排序列表的平均精度;第六,对音频进行标签分类,将待分类的音频数据输入到已训练好的准确度较高的模型中,并输出得到的分类标签结果。
1.数据预处理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011533089.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种挖泥船钢桩安装系统及方法
- 下一篇:一种定子扭转焊接机用同步反向移动装置