[发明专利]一种基于深度学习的音频多标签分类方法在审

申请号：	202011533089.X	申请日：	2020-12-22
公开（公告）号：	CN112559797A	公开（公告）日：	2021-03-26
发明（设计）人：	陈浩;马文;钟雄虎	申请（专利权）人：	湖南大学
主分类号：	G06F16/65	分类号：	G06F16/65;G06F16/683;G06K9/62;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	410082 湖南省***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习音频标签分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习技术进行音频多标签分类的方法，其步骤如下：

(1)数据。包括数据集的选择、降噪；

(2)特征提取。包括STFT、MFCC，输入VGGish特征提取器得到128维high-level的特征embedding；

(3)模型。包括神经网络的组成及其超参数的初始化等；

(4)训练。跟踪模型的损失函数等，确定神经网络种类，网络层数、超参数等因素对模型精确度的影响，从而不断调整模型参数，提高模型准确度；

(5)评估。对模型的评价指标采用lwlrap，根据该评价指标的数学定义计算每条测试音频所包含的相关标签排序列表的平均精度；

(6)多标签分类。将测试音频作为模型的输入，加载训练好的准确度较高的模型进行标签分类，并将预测的标签概率的结果输出。

2.根据权利要求1所述的该系统所需的数据，需要进行以下变换，以进行数据的预处理操作：

(1)选择适合音频多标签分类任务的数据集，如Kaggle平台上的FSDKaggle2019数据集；

(2)利用RNNoise降噪算法得到全新的wav格式的降噪后的音频数据集；

(3)利用VAD技术清理wav文件中的静音片段；

(4)根据实验机器配置，设置合适大小及比例的训练数据及测试数据。

3.根据权利要求1所述的音频特征提取，需要进行以下变换，以作为模型的输入：

(1)将音频数据通过短时傅里叶变换；

(2)提取梅尔频率倒谱系数特征；

(3)输入VGGish网络将输入特征转化为具有语义和有意义的128维high-level的特征embedding作为下游模型的输入。

4.根据权利要求1所述的多标签分类任务的模型，具有以下特征：

(1)传统的处理多标签分类任务的方法分类效果并不理想，本发明采用深度学习技术，将两种深度神经网络相结合，提升音频多标签分类结果的准确性；

(2)CNN在分类任务中表现一向出色，RNN可以为标签之间的相关性建模，因此采用CNN和RNN相结合的模型进行分类；

(3)设置合理的初始神经网络参数。对于分类任务，输出层一般选择softmax()函数对输出结果进行处理，优化器一般使用Adam优化器，学习率默认为0.001。

5.根据权利要求1所述的模型的训练，主要特征包括：

(1)跟踪损失函数的值和模型的准确度，不断调整模型参数，优化模型的性能；

(2)分别采用单一的CNN神经网络和单一的RNN神经网络训练模型；

(3)将CNN和RNN相结合训练模型；

(4)针对上述模型，改变其超参数，观察其中每个超参数对最终结果的影响，最终综合得到一个准确度较高的模型。

6.根据权利要求1所述的模型评估，其特征如下：

(1)采用lwlrap评价指标；

(2)根据该评价指标的数学定义计算得到每条测试音频所包含的相关标签排序列表的平均精度。

7.根据权利要求1所述的音频多标签分类，其特征如下：

(1)将测试音频文件作为模型的输入；

(2)加载训练好的准确度较高的模型，按有序预测路径顺序计算多标签预测的概率；

(3)将每个音频文件所预测的标签概率结果标注出来。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南大学，未经湖南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011533089.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载