[发明专利]一种字符切分方法和装置有效

专利信息
申请号: 200810101591.6 申请日: 2008-03-07
公开(公告)号: CN101251892A 公开(公告)日: 2008-08-27
发明(设计)人: 亓文法;程道放;李晓龙;卢书一 申请(专利权)人: 北大方正集团有限公司;北京大学;北京北大方正电子有限公司
主分类号: G06K9/20 分类号: G06K9/20;G06K9/68;G06K9/72
代理公司: 北京同达信恒知识产权代理有限公司 代理人: 李娟
地址: 100871北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 字符 切分 方法 装置
【说明书】:

技术领域

发明属于模式识别领域,具体涉及光学字符的切分技术。

背景技术

随着OCR(Optical Character Recognition,光字符识别)中单字符识别正确率的提高,字符切分已经成为OCR领域中的关键问题,目前在文字识别领域取得的大部分进展也都可以归功为文字切分水平的提高。但是目前文字识别技术的实用化已经受限于文字字符的切分技术,文字切分的正确率与文字识别正确率直接相关,文字切分的错误会直接导致文字识别的错误。

字符切分的目的就是从多字符图像中切分出一系列子图像,其中每个子图像都包含一个独立完整的字符。目前常用的字符切分方法有:标准切分法、基于识别的切分法、整体切分法以及前三种方法的组合。

整体切分法主要使用在英文字符切分过程中,该方法是把一个单词作为一个整体来进行识别,这种方法虽然避免了单词内部切分的问题,但它依赖于现有的定义好的词典,这大大限制了该方法的应用范围。

标准切分法主要使用在汉字字符切分过程中,该方法通过对图像进行分析寻找到字符之间较为合理的切分点,采用静态的投影分析方法,将文本图像进行行切分和列切分,该方法的具体实施过程如下:

通过扫描仪等数码成像设备获取文档的灰度图像数据。对于保存时间过长的文档、被弄脏的文档、加深复印后的复制件,扫描后的灰度图像数据包含很多额外的噪声,往往会影响字符切分的准确率,如图1所示。可以采用全局或者局部的阈值化方法对灰度图像数据进行二值化操作,例如大津法、迭代法和双峰法等,图2为对图1所示的图像采用大津法处理后的效果图,可以看出,经过二值化操作后的图像数据上面依然存在很多噪声,比如201所示的长线段和202所示的小的连通区域,这时可以有选择性的对噪声进行过滤操作。

可以采用基于区域生长的图像分割算法来过滤噪声,该方法将同一区域内具有相似性质的像素点聚集起来,形成连通区域,像素的相似性质包括平均灰度值、纹理、颜色等信息。从初始区域(如小邻域或甚至于每个像素)开始,将相邻的具有相似性质的像素点或者其他区域具有该性质的像素点归并到当前区域中,从而逐步增长区域,直至没有可以归并的点或其它小区域为止,形成连通区域。遍历图像中所有的连通区域,并计算每个连通区域内的黑点个数。

计算每个连通区域内的黑点个数后,设置一个经验阈值ThresholdPixel,该经验阈值可以根据文本图像的噪声强弱来设置,也可以根据文档中字体名称、字体大小以及排版布局来设置。所有黑点个数小于ThresholdPixel的连通区域都被视为噪声而被过滤掉。其中ThresholdPixel的值不能太大,否则会将很多汉字字符的偏旁部首过滤掉,比如“滤”字中的点;ThresholdPixel的值也不能太小,否则会遗留一定数目的噪声区域。

例如文档的布局排版格式为:A4幅面大小;字体为“仿宋”;字体大小为小三号;文档共有22行,每行有28个字符(包括标点符号在内)。可以将ThresholdPixel设为50,即黑点个数小于50的连通区域都被视为噪声而被过滤掉,相应区域内的每个像素点值被改为0。图3为图2经过噪音去除处理后的效果示意图,可以看出,其中类似202所述的黑点个数较少的连通区域大部分被过滤掉,但是由于类似201所述的连通区域内的黑点个数较多不能作为噪声过滤掉。

将二值化操作后的图像进行行切分和列切分,图4为如图3的文本区域采用标准切分方法后的效果示意图。可以看出,由于高噪声的存在,采用标准切分法后的文本可能存在字符粘连的问题,粘连是指在多字符图像中,字符间笔划相互接触的情况。

基于识别的方法是对标准切分法及整体切分法所进行的反馈,该方法提供了多个切分假设,然后对切分结构进行选择,得到最优的切分结果,这种方法能够识别出字符切分结果的正确与否,但不能纠正字符切分的错误,也不能有效的解决字符粘连、断笔等问题,而且这种方法比较复杂、耗时,在实际中应用得很少。

可以看出,在现有的字符切分技术中,存在以下缺点:

(1)、容易造成两个及两个以上的汉字图像由于图像预处理的影响或者字符之间的间距过小而粘连在一起,造成了字符切分不准确、识别率低的问题。

印刷体文本图像中,由于印刷样本质量比较差以及对文本图像进行二值化操作后带来的噪声和误差等,常常会造成粘连搭接字符的存在。

而且文献保存的时间过久或文档复制过程也会带来额外的噪声,比如文档被弄脏、阅读者随手添加的批注、复印过程中增加了浓度设置等,普通的噪声去除算法只会处理噪声较小的污点,无法处理长线的噪声,这些长线的噪声会造成字符间的粘连,影响字符识别的结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810101591.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top