[发明专利]一种基于深度学习的音乐分类方法有效
申请号: | 202010301644.X | 申请日: | 2020-04-16 |
公开(公告)号: | CN111611431B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 廖建新;张磊;陈爽;王玉龙;赵海秀;王晶;刘同存 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06N3/044;G06N3/0464;G06N3/045 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 音乐 分类 方法 | ||
1.一种基于深度学习的音乐分类方法,其特征在于,包括有:
步骤一、将音乐的音频文件转化成梅尔声谱图,并生成音乐标签的独热向量BD:(bd1,bd2,…,bdn),其中,bd1、bd2、…、bdn分别表示音乐对应于各项类别标签的属性值,预先为音乐设置多个归属的类别标签,当音乐归属于第i项类别标签时,则bdi=1;当音乐不归属于第i项类别标签时,则bdi=0,i∈[1,n],n是类别标签的总数;
步骤二、将音乐的梅尔声谱图和音乐标签的独热向量分别传入卷积神经网络和循环神经网络,通过卷积神经网络获得音乐的频域和时域特征向量,通过循环神经网络获得音乐-标签关系向量,然后将卷积神经网络和循环神经网络各自的输出向量映射到相同维度后,连接合并构成一个音乐-标签嵌入向量;
步骤三、将音乐-标签嵌入向量传入标签预测层,其输出是音乐对应每个类别标签的概率值,最后根据概率值,从所有类别标签中挑选多个类别标签作为音乐的分类,
步骤三中,标签预测层采用集束搜索算法来计算音乐对应每个类别标签的概率值,其预测路径是所有的类别标签,音乐对应每个类别标签的概率根据音乐-标签嵌入向量中的音乐的频域和时域特征和音乐-标签关系来计算。
2.根据权利要求1所述的方法,其特征在于,步骤二中,卷积神经网络由卷积层、残差连接层和池化层构成,第一层卷积层采用多个不同形状的滤波器堆叠而成,用于从输入的梅尔声谱图中提取音乐的频域和时域特征,然后将卷积层输出的频域和时域特征再依次经过残差连接层和池化层,从而最终输出音乐的频域和时域特征向量。
3.根据权利要求2所述的方法,其特征在于,采用7*38、7*67形状的滤波器从输入的梅尔声谱图中提取音乐的频域特征,采用32*1、64*1、128*1形状的滤波器从输入的梅尔声谱图中提取音乐的时域特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010301644.X/1.html,转载请声明来源钻瓜专利网。