[发明专利]多维局部二值模式和机器学习手写乐谱谱线删除方法在审
申请号: | 201710971988.X | 申请日: | 2017-10-18 |
公开(公告)号: | CN107909073A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 吴天龙;李锵;关欣 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/46;G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多维 局部 模式 机器 学习 手写 乐谱 删除 方法 | ||
技术领域
本发明涉及手写乐谱识别领域,通过图像处理和机器学习等技术完成乐谱的谱线删除任务。具体讲,涉及多维局部二值模式和机器学习手写乐谱谱线删除方法。
背景技术
乐谱是将音乐的声音特性,如音高、间隔、节拍等通过用可视化的记号表示出来的音乐记录手段。乐谱的存在使得音乐可以在世界范围内进行传播交流,同时也是音乐爱好者学习的“教科书”。在印刷乐谱被广泛使用之前,大量的音乐作品都是以手写乐谱的形式进行保存着。然而,手写乐谱很容易受到损坏,并且存在丢失的风险。随着计算机的普及,信息的交流速度有了飞跃的提升。这时,手写乐谱的传播就变得十分缓慢。因此,需要将手写乐谱转换为数字化信息,存储在数据库中。由于存在着海量的手写乐谱,人工完成这项工作变得异常困难。所以需要一种自动乐谱识别系统——将手写乐谱转换为计算机可“读懂”的数字信息,因此产生了光学乐谱识别(Optical Music Recognition,OMR)系统。
由于谱线的存在给OMR系统后面的音符识别模块造成了很大的障碍,几乎所有研究OMR系统的人员都提出了一种谱线删除算法。标准形式的乐谱谱线表现为一组(一般为五条)水平的细线,但对于手写乐谱来说,谱线变得复杂多变,例如弯曲变形、线宽不固定以及间断缺失等。这样谱线删除的任务变得并不容易。因此,急需一种鲁棒性很强的谱线删除算法,能够适用于多种类型的手写乐谱。
局部二值模式(Local Binary Pattern,LBP)是一种描述局部纹理特征的算子。通过比较目标像素点和其周围像素点的像素值大小,将比较结果转换为二进制进行表示,作为目标像素点的纹理特征值。在原始LBP的基础上,可以进行改进。LBP窗口的尺寸可以不同,并且窗口的形状也可以有多种变化,例如圆形、方形、椭圆以及直线等。可以采用不同的LBP窗口来提取目标点的LBP值,将这些LBP值组成一个多维的特征向量,用来表示目标点的特征。
机器学习是人工智能领域的一个分支。目标是找到一种适合数据的模型,通过训练集来训练模型参数,将模型参数进行保存,在未知的数据上进行预测。主要的任务有分类和回归。分类的算法又包含了很多种。xgboost是一种2014年出现的分类算法,并在2016年由tianqiChen等人正式发表。xgboost算法是boosting算法的一种,在近几年的数据竞赛中大放异彩。通过对xgboost算法中参数进行调节,可以很好的适应自己的数据,可调参数包括损失函数、学习率、惩罚项系数等。
发明内容
为克服现有技术的不足,本发明旨在实现为音符识别模块去除谱线这一强噪声,从而提高音符识别的准确率。为此,本发明采用的技术方案是,多维局部二值模式和机器学习手写乐谱谱线删除方法,步骤如下:
1)特征提取:将谱线删除看成是一种分类任务,即将前景色像素点进行二分类:谱线和音符,一个像素点属于谱线还是音符可以由其邻域的像素点来判断,采用局部二值模式LBP算子进行特征提取,LBP算子的滑窗大小采用不同尺寸,并且每一种尺寸的滑窗包含多种形状的LBP算子,将这些LBP值组成一个多维特征向量作为输入;
2)构建xgboost模型:将提取的多维LBP特征向量作为输入,利用数据集中已知删除后图像作为真值标签,训练xgboost模型并进行保存;
3)测试调优:利用已保存的模型,在测试集上进行测试,通过结果对比分析,对xgboost参数进行调节,优化之前的模型。
采用3*3的滑窗对中心像素点进行特征提取,中心像素点同周围的像素点依次进行像素值的大小比较,若中心点像素值小于与其进行比较的点,二进制编码取1,否则取0。然后将这个二进制转换为十进制就得到中心点的LBP值,计算公式:
其中(xc,yc)代表中心点,gc代表中心点的像素值,gi代表周围的8个点的像素值。
采用改进的LBP算子:窗口的大小采用7*7、9*9、11*11和13*13共4种尺寸窗口,并且对于每一种窗口又包含了16种形状的LBP滑窗,设计LBP滑窗为直线型,从竖直向上开始,每旋转22.5度取一条直线作为LBP滑窗,这样旋转一周共得到16个方向的LBP滑窗,最终一共得到了4*16个LBP值,将这些LBP值组合成1个高维的特征向量,作为分类器的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710971988.X/2.html,转载请声明来源钻瓜专利网。