[发明专利]基于深度学习的端到端乐谱音符识别方法在审
申请号: | 201911090621.2 | 申请日: | 2019-11-09 |
公开(公告)号: | CN110852375A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 黄志清;贾翔;王师凯;张煜森 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 端到端 乐谱 音符 识别 方法 | ||
1.基于深度学习的端到端乐谱音符识别方法,其特征在于:该方法一共分为三步,
(1)数据预处理:需要从MuseScore中下载对应的数据集,重新编码音高和时值标签;
(2)数据增强:对重新编码后的乐谱数据进行数据增强,本发明提出了4种不同的增强方法;
(3)端到端模型:应用于端到端乐谱音符识别的深度卷积神经网络模型,将增强后的数据输入的模型,模型的输出为音符时值和音高。
2.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法,其特征在于:从选取MusicXML文件的语料库中,创建乐谱图像和相应音符注释的数据集;使用MuseScore将MusicXML文件转换为乐谱图像,乐谱图像对应的标签用音高、时值和音符边界框位置组成的向量表示;每个音符用两个值表示:音高和时值;音高被重新编码为垂直距离,即音符与五线谱垂直轴上的距离;音符的音高值由音符到五线谱的垂直距离而定,边上的数字表示音高的标签,红色音符的音高标签为5,黄色音符的标签为-2;Note显示不同时值音符对应的形态,Duration表示音符的时值,Label表示编码后的的时值标签;时值以四分音符为一个单位;乐谱对应标签的时值和音高按照上述编码。
3.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法,其特征在于:
计算机生成的乐谱图像中不存在噪声和变化,训练出来的模型不具备泛化性;为了使模型对较低质量的输入和不同类型的乐谱图像具有鲁棒性,提出了模拟自然环境下的输入噪声源的增强方法,分别为图像经过高斯模糊处理,图像进过仿射变换向左旋转了5度,图像采用弹性变换改变图像视角,图像经过色彩变换模拟光照对图像的影响。
4.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法,其特征在于:
音符识别模型具体流程为:将乐谱图像输入卷积神经网络,经过一系列卷积、残差、拼接操作,提取乐谱图像的特征图;之后在特征图上分类输出音符时值和音高并回归音符的边界框;
为了让音符有足够大的感受野,模型采用YOLOv3的基础网络来提取特征,网络结构分为5个部分,分别是conv1_x,conv2_x,conv3_x,conv4_x和conv5_x;其中conv1_x,conv2_x,conv3_x,conv4_x和conv5_x分别包括1,2,8,8,6个building block,每个building block包括2个卷积层和一个残差连接层;考虑到等小物体经过卷积后会出现特征丢失,在YOLOv3基础网络输出特征图之后上采样8倍与低层网络的特征图进行特征融合来获取的更加全面的特征信息;
在卷积神经网络输出特征图之后,基于特征图上的每个像素点经过中间层生成n维特征向量,特征向量的维度n为:7*(置信度+候选框坐标+音高类别+时值类别),即在n维特征向量产生7个目标候选区域;对于每个目标候选区域,用sigmoid激活函数得到目标框的置信度,候选框的坐标,音符音高、音符时值,实现多任务训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911090621.2/1.html,转载请声明来源钻瓜专利网。