[发明专利]基于SIFT特征与灰度差值直方图特征的文字识别方法有效
申请号: | 200910052141.7 | 申请日: | 2009-05-27 |
公开(公告)号: | CN101561866A | 公开(公告)日: | 2009-10-21 |
发明(设计)人: | 陈凯;管海兵;金贞;武桐;郑琪 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46 |
代理公司: | 上海交达专利事务所 | 代理人: | 王锡麟;王桂忠 |
地址: | 200240*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 sift 特征 灰度 差值 直方图 文字 识别 方法 | ||
技术领域
本发明涉及的是一种图像文字识别技术领域的方法,具体是一种基于SIFT特征与灰度差值直方图特征的文字识别方法。
背景技术
目前,图像文字识别技术的应用十分广泛,该技术就是从一幅图像中识别出所包含的文字信息。其实,西方国家在文本识别技术领域已取得了不少研究成果,但是他们的研究对象大多局限于英文字母。由于中文具有复杂的笔画结构、庞大的汉字库、各种不同类型的字体,使得汉字识别技术成为一个研究难点。
传统的文本识别技术一般包括文本定位、文本增强以及成熟的OCR技术。对于基于OCR技术的文本识别方法而言,其识别性能与文本定位的准确率和文本增强后的图像质量有很大关系。而文本定位的准确率又取决于所选文字特征的描述能力。传统的文字特征描绘子大致可以概括为基于结构信息与基于统计信息两大类。基于结构信息的方法来描述汉字字形在理论上比较恰当,但是,在实际应用中,面临的主要问题是抗干扰能力差,例如图像中文字的倾斜、扭曲、断裂、粘连、对比度差等等,而这些因素直接影响到结构基元的提取。基于统计信息的描述方法,主要是提取待识别模式的一组统计特征,然后按照一定准则确定决策。例如,几何矩(geometricmoment)特征:m.k.hu提出利用矩不变量作为特征的想法,所涉及到的几何矩均在线性变换下保持不变。但在实际环境中,很难保证线性变换这一前提条件;傅立叶描绘子:利用傅立叶函数模拟封闭的轮廓线,将傅立叶函数的各个系数作为特征的,对于轮廓线不封闭的字符图像不适用,因此很难用于笔划断裂的字符的识别。
经对现有技术文献的检索发现:《基于笔划的手写体汉字方向分解特征提取方法》(载华南理工大学学报:自然科学版),提出了一种利用笔划密度特征识别文字的方法,文字以固定扫描次数沿水平、垂直或对角线方向扫描时的穿透次数。这种特征描述了汉字的各部分笔划的疏密程度,提供了比较完整的信息。在图像质量可以保证的情况下,这种特征相当稳定,但是在字符内部笔划粘连时误差较大。在实际运用中,上述特征的描述能力受背景复杂度、光照强度、文字字体、文字倾斜程度、文字尺寸等情况的影响。
发明内容
本发明的目的在于克服现有技术中的不足,提出一种基于SIFT特征与灰度差值直方图特征的文字识别方法,本发明利用文字关键区域的局部特征及灰度对比度统计特征来描述文字,并利用该信息来识别复杂背景下的文字。
本发明是通过以下技术方案实现的,本发明包括以下步骤:
(1)建立汉字模板图库,每张模板图片只含单个汉字。每个模板汉字涵盖不同字形的一号字体;
(2)提取待识别汉字图片的特征点,记录每个特征点的相关信息,即位置信息、邻域尺度信息、主方向,并计算出SIFT特征点的128维向量;其中,这些待识别图片上汉字的字体、字号、旋转度、拉伸度、在图片中所处的位置、所处背景的复杂程度都可以有所不同;
(3)利用步骤(2)中得到的每个特征点的相关信息,计算两倍邻域尺度范围内灰度差值统计直方图,得到特征点的120维向量;
(4)将步骤(2)和步骤(3)中计算得到的特征点的128维向量和120维向量合并在一起,归并成总的特征向量,得到待识别汉字图片的特征向量;
(5)计算模板图库中模板文字进行特征向量的计算,并存于汉字模板图库中;
(6)将待识别汉字图片的特征向量与模板图库中模板文字图片的特征向量相匹配:从得到的模板图库中模板文字图片的特征向量集合中,寻找与待识别汉字图片的特征向量相匹配的特征点;
(7)对识别到的汉字图片进行相似度排序,检测识别效果:根据正确匹配点对数的结果以及特征向量间的相似度,将步骤6得到的匹配结果通过加权排序的方法,最终得到模板库中与待识别汉字较匹配的汉字。
与现有技术相比,本发明具有以下有益效果:
本发明利用文字关键区域的局部特征及灰度对比度统计特征来识别复杂背景下的文字,解决了复杂背景、倾斜、形变、光线变换等不同质量的图像上的文字识别问题,无需定位图像中的文字区域,即无需离线地做大量文字统计特征的机器学习工作;无需对文字进行前期增强处理;无需对图像中的汉字进行倾斜矫正、尺度缩放、位置平移等处理;可以部分匹配不同字体的汉字,大大提高了文字识别率。
附图说明
图1是本发明的流程。
图2是同种字体的文字匹配效果。
图3是同种文字不同字体的匹配效果。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910052141.7/2.html,转载请声明来源钻瓜专利网。