[发明专利]一种基于深度学习的音符识别方法在审
申请号: | 202111495686.2 | 申请日: | 2021-12-09 |
公开(公告)号: | CN114373181A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 金海波;尚思宇;张煜森 | 申请(专利权)人: | 辽宁工程技术大学 |
主分类号: | G06V30/304 | 分类号: | G06V30/304;G06V30/18;G06V10/54;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营 |
地址: | 123000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 音符 识别 方法 | ||
本发明公开了一种基于深度学习的音符识别方法,步骤为:对手写体乐谱音符数据集进行划分;使用进行数据增强后的训练集训练手写体乐谱音符检测网络;设置多尺度特征融合网络,按从上至下,从下至上两个方向融合不同尺度下的手写体乐谱音符特征,加强特征纹理,使其能检测出图像中的小尺度目标;设计特征重校准模块,优化不同尺度下音符特征存在冲突的问题,使用两个并行且独立的子网络进行手写体乐谱音符检测;基于梯度调和机制的音符分类损失函数,通过计算每种音符的梯度密度,将样本损失乘其对应的梯度密度倒数,平衡易识别音符与难识别音符,提高稀少类别音符损失权重。本发明优化了手写体乐谱内在的数量不平衡问题,提高了模型的检测准确率。
技术领域
本发明属于音符识别的技术领域,尤其涉及一种基于深度学习的音符 识别方法。
背景技术
音乐作为表达人们思想感情与社会现实生活的一种艺术形式,在人类 精神文明的建设中有着不可或缺的地位。乐谱则是保证音乐流传与推广的 重要载体。在未进入大数据与云存储时代前,乐谱的存在形式多为纸质乐 谱。现今世界上仍留存了大量乐谱手稿,为了防止重要乐谱的丢失,并解 决纸质乐谱传播困难的问题。光学乐谱识别(opticalmusic recognition, OMR)技术应运而生,其功能为转换乐谱图像为机器可读格式(如MIDI)。
手写体乐谱识别(handwritten music recognition,HMR)则属光学乐谱 识别中最具挑战的领域。相较于普通的乐谱,手写体乐谱音符特征较多且 独特,乐谱纸张大小与音符大小不一,机器识别时较为困难。但基于手写 体乐谱中包含了大量珍贵乐谱手稿,其在重要的历史音乐保存与信息检索 以及音乐传播交流等方面具有重要意义。所以手写体乐谱识别技术被发明 且不断改进。传统统音符识别方法需要预先删除谱线,然后抽取基元符号, 再通过组合基元符号最终获取音符信息。该方法步骤繁琐且普遍精度较低, 主要因为每一个中间步骤产生的误差都将向后续步骤传递,误差不断累加 并且无法消除。随着深度学习的不断发展,乐谱音符识别的方式发生了巨 大的改变,其中融合了深度卷积神经网络的识别方法,极大提高了模型对 于音符特征的提取能力,准确率较于传统方法大幅提升,但是目前手写体 乐谱音符的页面级(page level)精确识别仍是一个待解决的问题。
Hajic等人提出了一种基于U-NET的手写体乐谱音符语义分割模型, 该模型可以区分输入图像中每一像素,达到手写体乐谱音符检测的目的。 相比于已有技术,该模型显著提高了手写体乐谱中谱号的检测准确率。
基于语义分割的手写体乐谱音符检测方法,通常需要额外的聚类分析 实现不同音符的分类,这意味着当图像中存在特征差异下或者重叠音符时, 该种方法的检测准确率将有明显的下降。此外,由于该网络层数较少,受 感受野大小的影响,该方法常常误检小节线与长符干两类音符。
Tuggener等人提出了一种基于Deep watershed detector的手写体乐谱音 符的识别方法,该方法使用ResNet101卷积神经网络提取手写体乐谱音符 特征,再将音符特征输入Refine-Net,最终输出包含音符类别向量以及音 符位置向量的稠密能量图(DenseEnergy Map),该方法显著提高了可识别 的乐谱幅面大小。
该方法虽然能够识别较大尺寸的手写体乐谱,但是该方法的检测准确 率偏低,其中由多种音符原语合成的组合音符(如调号)的检测准确率甚至 不足50%。同时该方法对于手写体乐谱中的稀有音符检测准确率也较为不 足,如力度记号。
发明内容
针对现有技术中手写体乐谱音符检测准确率不足的问题,本发明提出 了一种基于深度学习的音符识别方法,优化了不同尺度下的特征存在冲突 的问题,有效提高了模型的检测准确率。
为了解决上述技术问题,本发明通过以下技术方案来实现:
本发明提供一种基于深度学习的音符识别方法,包括以下步骤:
步骤1:对手写体乐谱音符检测数据集进行划分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111495686.2/2.html,转载请声明来源钻瓜专利网。