[发明专利]结合多尺度残差式CNN和SRU的乐谱图像识别方法在审
申请号: | 201910787184.3 | 申请日: | 2019-08-25 |
公开(公告)号: | CN110580458A | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 吴琼;李锵;关欣 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 12201 天津市北洋有限责任专利代理事务所 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 乐谱图像 多尺度 数据集 残差 时序 模型输入 模型训练 数据集中 数据增强 损失函数 训练模型 语义标签 语义信息 构建 链式 音符 标签 图像 输出 分类 预测 网络 | ||
本发明涉及一种结合多尺度残差式CNN和SRU的乐谱图像识别方法,包括下列步骤:第一步,建立乐谱图像的数据集;第二步,构建模型:将多尺度残差式CNN和SRU结合;第三步,训练模型:利用数据增强后的数据集进行模型训练,模型输入为数据集中的乐谱图像,真值标签为图像对应的语义标签,通过链式时序分类损失函数逐步调整网络各参数并达到最优,最终输出音符语义信息的预测值。
技术领域
本发明是序列化图像识别领域的重要分支,将神经网络应用于图像的识别中,针对难点音符对音符识别网络进行优化,实现对乐谱图像更精准、快速的转换。
背景技术
乐谱对音符、音调和音长等相关信息进行详尽描述,成为音乐人学习、分享以及传播音乐最直接的方式,但不少经典乐谱历经环境变化与时代变迁而受到损坏、甚至丢失,可见人为的储存并不能使所有乐谱完好无损地保留。随着计算机应用与图像扫描等先进技术的快速发展,纸质版乐谱文件可经过光学乐谱识别(Optical Music Recognition,OMR)技术转化为计算机能够“读懂”的电子版文件,从而可将其广泛应用于音乐信息检索、音乐辅助教学等领域。但由于通用的乐谱识别算法结构复杂,实现难度较大,现有的商业识别软件精度较低,因此迫切需要研究一种易实现且高精度OMR算法。
Bainbridge等[1]提出早期OMR算法通用框架,主要包括图像预处理、音符识别、音乐信息重构与最终表达构建等部分,而五线谱检测与删除、音符分割以及识别与音符信息的重组是其中技术难点,但每一步实现均有难度且整体识别精度不够。近年来伴随着大数据的驱动,机器学习与深度神经网络得到广泛应用,Sober-Mira等[2]提出将卷积神经网络(Convolutional Neural Network,CNN)应用于音符识别部分,提升通用框架算法的精度;Shi等[3]首先提出卷积循环神经网络(Convolutional Recurrent Neural Networks,CRNN),并将其应用于场景文本识别中效果显著;Calvo-Zaragoza等[4]在乐谱识别中采用Shi等[3]提出的算法,并进行模型优化与定量分析,首先对输入图片进行预处理,统一以1:4比例的三种单声道乐谱图像尺寸输入网络中,其次对CRNN网络中特征识别部分采用双向长短时记忆(Bi-directional Long Short-Term Memory,BiLSTM)网络构成C-BiLSTM网络,最终在尺寸为60×240的输入图像中得到约22.37%序列错误率及2.16%符号错误率,但特征提取能力不足导致其对于难点音符如倚音、小节线等识别精度不够。
目前为止OMR算法研究存在以下问题:1)基于通用框架的算法步骤繁杂且每一步都存在困难:五线谱的检测部分需要平衡算法的抗噪性与抗形变能力;五线谱删除部分将增大附点音符的识别难度;音符识别与分类部分将根据音符的不同特性选择不同识别方法,选取一种通用算法较难,且分类效果在不同音符中差异明显。这些问题将使得OMR任务整体识别精度不够;2)以端对端训练的深度神经网络算法简化通用框架的复杂度,不再对OMR任务中关键步骤分别进行分析与研究,降低了多步骤框架中引入误差的可能性,但OMR任务对细节信息较为敏感,尤其对于难点音符的识别,模型的特征提取能力不足将严重限制识别精度的提升;3)数据集中音符序列仅仅是简单音符的组合,丰富性与多样性不足使得模型的泛化能力差,易造成过拟合的问题;4)采用BiLSTM特征识别的网络模型通常在训练过程中收敛缓慢,消耗时间较长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910787184.3/2.html,转载请声明来源钻瓜专利网。