[发明专利]一种中文文字图片长干扰线去除方法在审
申请号: | 202010031900.8 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111209912A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 龙华;段荧;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/40;G06K9/46 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 沈艳尼 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 文字 图片 干扰 去除 方法 | ||
本发明涉及一种中文文字图片长干扰线去除方法,属于信息处理技术领域。首先获取带有长干扰线的文字图片,并对图像进行二值化处理,去除原始图像中的部分噪音,从而得到主要的文字识别部分;设定初始扫描方向,对图片进行扫描获取待测点;根据不同种类的像素连接情况,计算各个线条的连接权值和干扰线条的阈值,判定超过此阈值的线条为干扰线;通过干扰线上像素点的邻域特性,判定归属后对其进行保留或去除;去除图片中的单行或者单列像素;最后,对图片进行重复去噪,直至其阈值低于初次计算的权值均值时,保留并输出最终结果图片。本发明通过贪婪算法计算线条均值,解决现存问题中计算速率低,干扰线与文字耦合粘连部分去除效果不理想的问题。
技术领域
本发明涉及一种中文文字图片长干扰线去除方法,属于信息处理技术领域。
背景技术
如今正处于计算机信息化飞速发展的时代,信息的电子化处理已然成为了一种不可逆转的趋势。在未来,如何将大量的已产生或将产生的印刷或手写的海量文档高效并准确的储存于计算机之中,减少繁琐的文字录入,是一个尚需解决的问题。目前,单纯背景下的印刷体文字的文档图像,其OCR的识别率已经能够达到99%以上,并且在各个领域中得到了广泛的应用。然而,现实中所需识别的文字图片却是纷繁复杂的,包含了大量的干扰信息(如:复杂的背景噪声、干扰线等),从而降低了识别的准确率。关于干扰线的产生,往往是由于人们在原始文本上对重要内容进行的标记,或者是为了逃避信息安全机构对非法信息传播的过滤,对于带有干扰的信息人们可以根据已有的知识进行理解,从而获取到传播的信息,而计算机却不尽然。因此,如何对文字图像中的干扰线进行有效的去除,成为OCR识别问题中一个重要的步骤。
关于文本图像去除干扰线的研究工作大致可归为三类,第一类是通过干扰线与原始文字图片的颜色差异性,根据像素值将干扰与非干扰线进行分离后,对干扰线进行去除。此方法简单快捷,针对于干扰线与文本颜色差异较大的情况能够很好地解决,但却会导致文本笔画缺失及断裂,并且对于干扰线与文本同色的情况却并不奏效。第二类是规则的线段,一般表现为印刷文档中的下划线,或者表格之中的边缘线,通过连通分量分析以及下边缘分析策略,获取干扰线的位置信息。或者是通过滑动窗口中的熵值,判断干扰线的位置信息,从而达到去除的目的。第三类是不规则的线段,通过使用超图来检测图像中的干扰线,并采用方法偏移算法、主曲线方法以及改进的最短路径法进行实现,该方法比较复杂,并且对于如何处理与文字像素粘连的部分没有进行很好的阐述。以上三种方法都有其不足的地方,针对文字图像中去除同色且不规则长干扰线的问题,本发明提出了一种中文文字图片长干扰线去除方法。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提出一种中文文字图片长干扰线去除方法,主要用于解决文字图片中文字与不规则干扰线的粘连情况。
本发明的技术方案是:一种中文文字图片长干扰线去除方法,首先获取带有长干扰线的文字图片,并对图像进行二值化处理,去除原始图像中的部分噪音,从而得到主要的文字识别部分;设定初始扫描方向,对图片进行扫描获取待测点;根据不同种类的像素连接情况,计算各个线条的连接权值和干扰线条的阈值,判定超过此阈值的线条为干扰线;通过干扰线上像素点的邻域特性,判定归属后对其进行保留或去除;去除图片中的单行或者单列像素;最后,对图片进行重复去噪,直至其阈值低于初次计算的权值均值时,保留并输出最终结果图片。
具体步骤为:
Step1:获取带有与文本颜色相同干扰线的文字图像。
Step2:对文字图像进行二值化的处理,并得到二值化图像。
Step3:确定初始扫描方向,获取与文字颜色一致的像素点。
Step4:依次扫描待测点,计算通过线段权值。
Step5:计算当前图片所有线段权值的均值,并储存初始图片所有连接线段的权值均值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010031900.8/2.html,转载请声明来源钻瓜专利网。