[发明专利]结合多尺度残差式CNN和SRU的乐谱图像识别方法在审

专利信息
申请号: 201910787184.3 申请日: 2019-08-25
公开(公告)号: CN110580458A 公开(公告)日: 2019-12-17
发明(设计)人: 吴琼;李锵;关欣 申请(专利权)人: 天津大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/34;G06K9/62;G06N3/04;G06N3/08
代理公司: 12201 天津市北洋有限责任专利代理事务所 代理人: 程毓英
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 乐谱图像 多尺度 数据集 残差 时序 模型输入 模型训练 数据集中 数据增强 损失函数 训练模型 语义标签 语义信息 构建 链式 音符 标签 图像 输出 分类 预测 网络
【说明书】:

发明涉及一种结合多尺度残差式CNN和SRU的乐谱图像识别方法,包括下列步骤:第一步,建立乐谱图像的数据集;第二步,构建模型:将多尺度残差式CNN和SRU结合;第三步,训练模型:利用数据增强后的数据集进行模型训练,模型输入为数据集中的乐谱图像,真值标签为图像对应的语义标签,通过链式时序分类损失函数逐步调整网络各参数并达到最优,最终输出音符语义信息的预测值。

技术领域

本发明是序列化图像识别领域的重要分支,将神经网络应用于图像的识别中,针对难点音符对音符识别网络进行优化,实现对乐谱图像更精准、快速的转换。

背景技术

乐谱对音符、音调和音长等相关信息进行详尽描述,成为音乐人学习、分享以及传播音乐最直接的方式,但不少经典乐谱历经环境变化与时代变迁而受到损坏、甚至丢失,可见人为的储存并不能使所有乐谱完好无损地保留。随着计算机应用与图像扫描等先进技术的快速发展,纸质版乐谱文件可经过光学乐谱识别(Optical Music Recognition,OMR)技术转化为计算机能够“读懂”的电子版文件,从而可将其广泛应用于音乐信息检索、音乐辅助教学等领域。但由于通用的乐谱识别算法结构复杂,实现难度较大,现有的商业识别软件精度较低,因此迫切需要研究一种易实现且高精度OMR算法。

Bainbridge等[1]提出早期OMR算法通用框架,主要包括图像预处理、音符识别、音乐信息重构与最终表达构建等部分,而五线谱检测与删除、音符分割以及识别与音符信息的重组是其中技术难点,但每一步实现均有难度且整体识别精度不够。近年来伴随着大数据的驱动,机器学习与深度神经网络得到广泛应用,Sober-Mira等[2]提出将卷积神经网络(Convolutional Neural Network,CNN)应用于音符识别部分,提升通用框架算法的精度;Shi等[3]首先提出卷积循环神经网络(Convolutional Recurrent Neural Networks,CRNN),并将其应用于场景文本识别中效果显著;Calvo-Zaragoza等[4]在乐谱识别中采用Shi等[3]提出的算法,并进行模型优化与定量分析,首先对输入图片进行预处理,统一以1:4比例的三种单声道乐谱图像尺寸输入网络中,其次对CRNN网络中特征识别部分采用双向长短时记忆(Bi-directional Long Short-Term Memory,BiLSTM)网络构成C-BiLSTM网络,最终在尺寸为60×240的输入图像中得到约22.37%序列错误率及2.16%符号错误率,但特征提取能力不足导致其对于难点音符如倚音、小节线等识别精度不够。

目前为止OMR算法研究存在以下问题:1)基于通用框架的算法步骤繁杂且每一步都存在困难:五线谱的检测部分需要平衡算法的抗噪性与抗形变能力;五线谱删除部分将增大附点音符的识别难度;音符识别与分类部分将根据音符的不同特性选择不同识别方法,选取一种通用算法较难,且分类效果在不同音符中差异明显。这些问题将使得OMR任务整体识别精度不够;2)以端对端训练的深度神经网络算法简化通用框架的复杂度,不再对OMR任务中关键步骤分别进行分析与研究,降低了多步骤框架中引入误差的可能性,但OMR任务对细节信息较为敏感,尤其对于难点音符的识别,模型的特征提取能力不足将严重限制识别精度的提升;3)数据集中音符序列仅仅是简单音符的组合,丰富性与多样性不足使得模型的泛化能力差,易造成过拟合的问题;4)采用BiLSTM特征识别的网络模型通常在训练过程中收敛缓慢,消耗时间较长。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910787184.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top