[发明专利]一种基于深度学习的音符识别方法在审
申请号: | 202111495686.2 | 申请日: | 2021-12-09 |
公开(公告)号: | CN114373181A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 金海波;尚思宇;张煜森 | 申请(专利权)人: | 辽宁工程技术大学 |
主分类号: | G06V30/304 | 分类号: | G06V30/304;G06V30/18;G06V10/54;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营 |
地址: | 123000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 音符 识别 方法 | ||
1.一种基于深度学习的音符识别方法,其特征在于,包括以下步骤:
步骤1:对手写体乐谱音符检测数据集进行划分;
步骤2:使用进行数据增强后的训练集训练手写体乐谱音符检测网络;
步骤3:设置多尺度特征融合网络,该多尺度特征融合网络可按从上至下,从下至上两个方向融合不同尺度下的手写体乐谱音符特征,加强手写体乐谱音符特征纹理,使得模型可以检测出乐谱图像中的小尺度目标;
步骤4:使用两个并行且独立的子网络进行手写体乐谱音符检测任务;
步骤5:基于梯度调和机制的音符分类损失函数,通过计算每种音符的梯度密度,将样本损失乘上其对应的梯度密度倒数,平衡易识别音符与难识别音符,提高稀少类别音符损失权重。
2.如权利要求1所述的基于深度学习的音符识别方法,其特征在于,在步骤1中,使用120张手写体乐谱图像训练模型和20张手写体乐谱图像用于模型验证。
3.如权利要求1所述的基于深度学习的音符识别方法,其特征在于,所述步骤3的步骤如下:
首先使用全局平均池化生成全局通道描述;
然后对该通道描述进行维度扩充与重调整;
使用卷积核为3x3大小的卷积层获取空间信息,将通道描述与空间描述进行合并;
最后使用sigmoid函数生成特征重调整权重,自适应地加强或抑制多尺度特征图中的每一像素点。
4.如权利要求1所述的基于深度学习的音符识别方法,其特征在于,所述步骤4的步骤如下:
首先使用一个卷积核大小为1x1的卷积层对多尺度特征进行降维,保证模型的实时性;
然后使用两个卷积核大小为3x3的卷积层分别处理手写体乐谱音符检测任务与手写体乐谱音符分类任务;
最后使用卷积核大小为1x1的卷积层分别输出手写体音符分类向量与手写体乐谱音符坐标向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111495686.2/1.html,转载请声明来源钻瓜专利网。