[发明专利]一种基于SE卷积网络的乐器识别方法及系统有效
申请号: | 201910569242.5 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110310666B | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 尹学渊;祁松茂;江天宇 | 申请(专利权)人: | 成都潜在人工智能科技有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/30;G10L21/10 |
代理公司: | 成都睿道专利代理事务所(普通合伙) 51217 | 代理人: | 贺理兴 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 se 卷积 网络 乐器 识别 方法 系统 | ||
1.一种基于SE卷积网络的乐器识别方法,其特征在于:包括如下步骤:
待识别数据预处理,将待识别音频文件转换为待识别自相关图谱;
待识别数据识别,将待识别自相关图谱输入预先构建的乐器识别模型进行识别,得到一个s行num_ins列的矩阵,其中s代表音乐被切分的片段数目,num_ins代表可识别的乐器种类数,其中,所述将待识别自相关图谱输入预先构建的乐器识别模型进行识别包括如下步骤:通过预先构建的乐器识别模型对待识别自相关图谱进行初步卷积计算,然后将卷积结果进行第一次最大池化处理,然后将第一次最大池化后的结果进行2次fire模块计算,将2次fire模块计算后的数据进行第二次最大池化处理,将第二次最大池化处理后的数据进行第三、第四次fire模块计算,第三、第四次fire模块计算后的数据进行第三次最大池化处理,第三次最大池化处理后的数据进行第五、第六次fire模块计算,第五、第六次fire模块计算后的数据进行一次卷积,然后对卷积后的数据进行批标准化,将标准化后的数据传输到SE模块进行处理,处理后的数据再依次进行卷积和批标准化,然后再将数据进行全局平均化,得到输出结果;
乐器解析,将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签,其中,所述将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签包括如下步骤:在S所在的轴上将输出结果矩阵的行向量加起来,得到shape为(num_ins)的向量;对向量做归一化;将归一化后的数据与阈值进行比较,判断存在的乐器的种类,其中,S为采样率,所述阈值的取值范围为0.2至0.6。
2.根据权利要求1所述的基于SE卷积网络的乐器识别方法,其特征在于:所述的将待识别音频文件转换为待识别自相关图谱包括如下子步骤:
将待识别音频文件解码为wave格式,并归一化至(-1~1);
将wave格式的音频文件通过平均得到单声道的音频;
将单声道的音频降采样;
对降采样后的音频进行切段;
对切好的段进行自相关谱计算,得到自相关谱;
将自相关谱表示的频率转换为对数度量;
将对数度量的自相关谱中的数值归一化至(-1~1)。
3.根据权利要求2所述的基于SE卷积网络的乐器识别方法,其特征在于:所述的自相关谱计算包括如下步骤:
对切段后的音频数据分帧;
对每个数据分帧的数据做窗函数运算;
将加窗运算后的数据分帧分别进行自相关运算,如下式所示:
τ代表延迟,acfxx[τ]是自相关函数的值,N为帧长度,n为采样点序号;
取不同的τ重复自相关运算,将得到的自相关函数值按τ值从小到大排列起来,组成一个自相关向量,在得到向量后,根据时间顺序在频率轴上将每帧得到的自相关向量排列起来组成一个矩阵;
对该矩阵进行转置,使其横轴代表时间,纵轴代表频率,得到自相关谱。
4.根据权利要求2所述的基于SE卷积网络的乐器识别方法,其特征在于:所述的将自相关谱表示的频率转换为对数度量包括如下步骤:
计算自相关谱矩阵行索引值对应的绝对频率,计算公式如下所示:
其中,fabs为绝对频率,I为索引,S为采样率,b是索引数目,S/2是根据奈奎斯特采样定理求出的当前采样率下能表示的最大频率;
计算梅尔频率的滤波器组;
将绝对频率分别与滤波器组复合,得到复合后的向量即为对数度量。
5.根据权利要求1所述的基于SE卷积网络的乐器识别方法,其特征在于:所述的乐器识别模型的构建包括如下步骤:
训练样本预处理,将训练样本音频文件转换为训练样本自相关图谱,将音频标签转换为与音频文件对应的标签向量;
识别模型训练,将训练样本自相关图谱和音频文件对应的标签向量输入深度学习模型训练,得到乐器识别模型。
6.根据权利要求5所述的基于SE卷积网络的乐器识别方法,其特征在于:所述的音频标签通过独热码转换为与音频对应的标签向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都潜在人工智能科技有限公司,未经成都潜在人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910569242.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车载听歌识曲装置
- 下一篇:一种基于声学特征的设备故障检测方法