[发明专利]基于深度学习的端到端乐谱音符识别方法在审

申请号：	201911090621.2	申请日：	2019-11-09
公开（公告）号：	CN110852375A	公开（公告）日：	2020-02-28
发明（设计）人：	黄志清;贾翔;王师凯;张煜森	申请（专利权）人：	北京工业大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习端到端乐谱音符识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于深度学习的端到端乐谱音符识别方法，其特征在于：该方法一共分为三步，

(1)数据预处理：需要从MuseScore中下载对应的数据集，重新编码音高和时值标签；

(2)数据增强：对重新编码后的乐谱数据进行数据增强，本发明提出了4种不同的增强方法；

(3)端到端模型：应用于端到端乐谱音符识别的深度卷积神经网络模型，将增强后的数据输入的模型，模型的输出为音符时值和音高。

2.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法，其特征在于：从选取MusicXML文件的语料库中，创建乐谱图像和相应音符注释的数据集；使用MuseScore将MusicXML文件转换为乐谱图像，乐谱图像对应的标签用音高、时值和音符边界框位置组成的向量表示；每个音符用两个值表示：音高和时值；音高被重新编码为垂直距离，即音符与五线谱垂直轴上的距离；音符的音高值由音符到五线谱的垂直距离而定，边上的数字表示音高的标签，红色音符的音高标签为5，黄色音符的标签为-2；Note显示不同时值音符对应的形态，Duration表示音符的时值，Label表示编码后的的时值标签；时值以四分音符为一个单位；乐谱对应标签的时值和音高按照上述编码。

3.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法，其特征在于：

计算机生成的乐谱图像中不存在噪声和变化，训练出来的模型不具备泛化性；为了使模型对较低质量的输入和不同类型的乐谱图像具有鲁棒性，提出了模拟自然环境下的输入噪声源的增强方法，分别为图像经过高斯模糊处理，图像进过仿射变换向左旋转了5度，图像采用弹性变换改变图像视角，图像经过色彩变换模拟光照对图像的影响。

4.根据权利要求1所述的基于深度学习的端到端乐谱音符识别方法，其特征在于：

音符识别模型具体流程为：将乐谱图像输入卷积神经网络，经过一系列卷积、残差、拼接操作，提取乐谱图像的特征图；之后在特征图上分类输出音符时值和音高并回归音符的边界框；

为了让音符有足够大的感受野，模型采用YOLOv3的基础网络来提取特征，网络结构分为5个部分，分别是conv1_x，conv2_x，conv3_x，conv4_x和conv5_x；其中conv1_x，conv2_x，conv3_x，conv4_x和conv5_x分别包括1，2，8，8，6个building block，每个building block包括2个卷积层和一个残差连接层；考虑到等小物体经过卷积后会出现特征丢失，在YOLOv3基础网络输出特征图之后上采样8倍与低层网络的特征图进行特征融合来获取的更加全面的特征信息；

在卷积神经网络输出特征图之后，基于特征图上的每个像素点经过中间层生成n维特征向量，特征向量的维度n为：7*(置信度+候选框坐标+音高类别+时值类别)，即在n维特征向量产生7个目标候选区域；对于每个目标候选区域，用sigmoid激活函数得到目标框的置信度，候选框的坐标，音符音高、音符时值，实现多任务训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911090621.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种Web中面向服务环境中的基于张量的信任评估方法
下一篇：一种嵌入式双面互连功率模块封装结构和制作方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度学习的端到端乐谱音符识别方法在审

专利文献下载