[发明专利]多维局部二值模式和机器学习手写乐谱谱线删除方法在审

专利信息
申请号: 201710971988.X 申请日: 2017-10-18
公开(公告)号: CN107909073A 公开(公告)日: 2018-04-13
发明(设计)人: 吴天龙;李锵;关欣 申请(专利权)人: 天津大学
主分类号: G06K9/34 分类号: G06K9/34;G06K9/46;G06K9/62
代理公司: 天津市北洋有限责任专利代理事务所12201 代理人: 刘国威
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 多维 局部 模式 机器 学习 手写 乐谱 删除 方法
【说明书】:

技术领域

发明涉及手写乐谱识别领域,通过图像处理和机器学习等技术完成乐谱的谱线删除任务。具体讲,涉及多维局部二值模式和机器学习手写乐谱谱线删除方法。

背景技术

乐谱是将音乐的声音特性,如音高、间隔、节拍等通过用可视化的记号表示出来的音乐记录手段。乐谱的存在使得音乐可以在世界范围内进行传播交流,同时也是音乐爱好者学习的“教科书”。在印刷乐谱被广泛使用之前,大量的音乐作品都是以手写乐谱的形式进行保存着。然而,手写乐谱很容易受到损坏,并且存在丢失的风险。随着计算机的普及,信息的交流速度有了飞跃的提升。这时,手写乐谱的传播就变得十分缓慢。因此,需要将手写乐谱转换为数字化信息,存储在数据库中。由于存在着海量的手写乐谱,人工完成这项工作变得异常困难。所以需要一种自动乐谱识别系统——将手写乐谱转换为计算机可“读懂”的数字信息,因此产生了光学乐谱识别(Optical Music Recognition,OMR)系统。

由于谱线的存在给OMR系统后面的音符识别模块造成了很大的障碍,几乎所有研究OMR系统的人员都提出了一种谱线删除算法。标准形式的乐谱谱线表现为一组(一般为五条)水平的细线,但对于手写乐谱来说,谱线变得复杂多变,例如弯曲变形、线宽不固定以及间断缺失等。这样谱线删除的任务变得并不容易。因此,急需一种鲁棒性很强的谱线删除算法,能够适用于多种类型的手写乐谱。

局部二值模式(Local Binary Pattern,LBP)是一种描述局部纹理特征的算子。通过比较目标像素点和其周围像素点的像素值大小,将比较结果转换为二进制进行表示,作为目标像素点的纹理特征值。在原始LBP的基础上,可以进行改进。LBP窗口的尺寸可以不同,并且窗口的形状也可以有多种变化,例如圆形、方形、椭圆以及直线等。可以采用不同的LBP窗口来提取目标点的LBP值,将这些LBP值组成一个多维的特征向量,用来表示目标点的特征。

机器学习是人工智能领域的一个分支。目标是找到一种适合数据的模型,通过训练集来训练模型参数,将模型参数进行保存,在未知的数据上进行预测。主要的任务有分类和回归。分类的算法又包含了很多种。xgboost是一种2014年出现的分类算法,并在2016年由tianqiChen等人正式发表。xgboost算法是boosting算法的一种,在近几年的数据竞赛中大放异彩。通过对xgboost算法中参数进行调节,可以很好的适应自己的数据,可调参数包括损失函数、学习率、惩罚项系数等。

发明内容

为克服现有技术的不足,本发明旨在实现为音符识别模块去除谱线这一强噪声,从而提高音符识别的准确率。为此,本发明采用的技术方案是,多维局部二值模式和机器学习手写乐谱谱线删除方法,步骤如下:

1)特征提取:将谱线删除看成是一种分类任务,即将前景色像素点进行二分类:谱线和音符,一个像素点属于谱线还是音符可以由其邻域的像素点来判断,采用局部二值模式LBP算子进行特征提取,LBP算子的滑窗大小采用不同尺寸,并且每一种尺寸的滑窗包含多种形状的LBP算子,将这些LBP值组成一个多维特征向量作为输入;

2)构建xgboost模型:将提取的多维LBP特征向量作为输入,利用数据集中已知删除后图像作为真值标签,训练xgboost模型并进行保存;

3)测试调优:利用已保存的模型,在测试集上进行测试,通过结果对比分析,对xgboost参数进行调节,优化之前的模型。

采用3*3的滑窗对中心像素点进行特征提取,中心像素点同周围的像素点依次进行像素值的大小比较,若中心点像素值小于与其进行比较的点,二进制编码取1,否则取0。然后将这个二进制转换为十进制就得到中心点的LBP值,计算公式:

其中(xc,yc)代表中心点,gc代表中心点的像素值,gi代表周围的8个点的像素值。

采用改进的LBP算子:窗口的大小采用7*7、9*9、11*11和13*13共4种尺寸窗口,并且对于每一种窗口又包含了16种形状的LBP滑窗,设计LBP滑窗为直线型,从竖直向上开始,每旋转22.5度取一条直线作为LBP滑窗,这样旋转一周共得到16个方向的LBP滑窗,最终一共得到了4*16个LBP值,将这些LBP值组合成1个高维的特征向量,作为分类器的输入。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710971988.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top