[发明专利]基于标签深度分析的音乐自动标注方法在审
申请号: | 201910047030.0 | 申请日: | 2019-01-18 |
公开(公告)号: | CN109918535A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 王振宇;萧永乐;张睿;雷昶;高雨轩 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/68 | 分类号: | G06F16/68;G06F16/65;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 裴磊磊 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音乐标签 音乐数据 自动标注 深度分析 多层级 音乐 传统音乐 标签 二维卷积 聚合特征 梅尔频谱 数据切片 数据清洗 特征提取 网络构建 向量表示 一维卷积 音频内容 可用性 采样 标注 聚合 工作量 网络 学习 预测 转换 应用 监督 维护 | ||
1.一种基于标签深度分析的音乐自动标注方法,其特征在于,所述方法包括以下步骤:
S1、收集音乐数据并结合音乐标签体系进行数据清洗;
S2、对音乐数据进行采样,转换为梅尔频谱图并进行数据切片;
S3、基于一维卷积网络构建音频多层级特征提取网络,通过有监督学习进行参数预训练;
S4、基于二维卷积网络进行音乐标签向量表示学习,获取音乐标签特征;
S5、实现音频多层级特征与音乐标签特征的特征聚合;
S6、基于聚合特征进行最终的音乐标签预测。
2.根据权利要求1所述的一种基于标签深度分析的音乐自动标注方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、从自有曲库和互联网音乐平台收集音乐音频和音乐标签数据;
S12、根据音乐标签体系对音乐标签进行清洗、规范化,过滤掉缺少标签标注的音乐数据。
3.根据权利要求1所述的一种基于标签深度分析的音乐自动标注方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、将音乐音频数据转换为mp3格式,按照16kHz采样频率进行采样或重采样;
S22、对采样音频进行梅尔频谱图转换;
S23、对梅尔频谱进行对数处理,根据固定音频帧窗口大小重复随机采样,再对每个切片进行标准化和归一化。
4.根据权利要求1所述的一种基于标签深度分析的音乐自动标注方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、将输入的音频梅尔频谱图采用一维卷积网络进行卷积,使用指数线性激活函数ELU对网络层输出进行非线性变换;
S32、采用一维最大池化层对卷积网络输出结果进行池化,通过Dropout操作随机丢弃部分网络层输出结果;
S33、重复步骤S31~S32,构建具有三层卷积网络堆叠的模型;
S34、将最后一层卷积网络的输出进行扁平化,使用一个全连接网络进行特征提取,最终连接到具有Sigmoid激活函数的输出层;
S35、使用标注数据通过有监督学习对音频多层级特征提取网络进行预训练,保存模型参数。
5.根据权利要求1所述的一种基于标签深度分析的音乐自动标注方法,其特征在于,所述步骤S4具体包括以下步骤:
S41、将输入的音频梅尔频谱图采用二维卷积网络进行卷积,使用指数线性激活函数ELU对网络层进行非线性变换;
S42、采用二维最大池化层对卷积网络输出结果进行池化,通过Dropout操作随机丢弃部分网络层输出结果;
S43、重复步骤S41~S42,构建具有五层卷积网络堆叠的模型;
S44、将最后一层卷积网络的输出进行扁平化,使用一个全连接网络进行特征提取,最终连接到具有Sigmoid激活函数的输出层;
S45、使用标注数据通过有监督学习对音乐标签进行表示学习,提取模型最后一个全连接输出层的网络参数作为音乐标签特征矩阵,得到音乐标签表示学习结果。
6.根据权利要求1所述的一种基于标签深度分析的音乐自动标注方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、对音频多层级特征进行最大池化和平均池化,得到多个一维音频特征向量;
S52、对于带有部分标注标签的输入音频,将已标注标签的向量进行平均池化;对于不具备已标注标签的音频,采用缺省向量表示,缺省向量在最终的标签预测模型训练时自适应学习;
S53、将各层级池化所得到的多个一维音频特征向量与标签特征向量进行线性拼接,得到聚合特征向量。
7.根据权利要求1所述的一种基于标签深度分析的音乐自动标注方法,其特征在于,所述步骤S6具体包括以下步骤:
S61、将步骤S5得到的聚合特征作为输入,使用两个全连接层对聚合特征进行提取和非线性变换;
S62、将最后一个网络层连接到具有Sigmoid激活函数的输出层;
S63、使用标注数据通过有监督学习对最终的音乐标签预测网络进行训练,从而通过训练好的音乐标签预测网络进行最终的音乐标签预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910047030.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型电台软件
- 下一篇:播放歌曲高潮的方法、装置、设备及存储介质