[发明专利]字符提取方法有效

专利信息
申请号: 00121947.2 申请日: 2000-07-26
公开(公告)号: CN1291756A 公开(公告)日: 2001-04-18
发明(设计)人: 赤木琢磨 申请(专利权)人: 株式会社东芝
主分类号: G06K9/00 分类号: G06K9/00
代理公司: 中国国际贸易促进委员会专利商标事务所 代理人: 吴丽丽
地址: 日本神*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 字符 提取 方法
【说明书】:

发明涉及一种用于字符识别设备的字符提取方法,该方法可以一次将相连字符提取为单个字符,而字符识别设备是根据例如输入的明暗字符图像来识别字符的。

通常,广义上将字符识别技术分为字符图像输入、字符线提取、字符提取和字符识别。

通常,对输入的字符图像进行二元化处理后再提取相连字符。输入的字符图像被划分为字符区域和背景区域。此时,将多个字符以相连的状态提取到一个字符区域。原有技术根据相连字符的形状获取结构上的分离点和分析出来的分离点,分离相连字符。简而言之,当相连字符的形状具有类似山谷的凹痕时,通过将凹痕作为连接点而将一个字符区域分离成单个字符。

但是,对相连字符连接点形状进行处理时,需要考虑各种图案,而采用原有技术可以分离的图案仅限于这些图案中的少数几种特殊形状。

通常,如果是手写字符的文档图像,那么在提取相连字符时,对于相连字符的大部分来讲,输入文档图像中的字符在文档第一次输入时就已经相连。

相反,如果是打印类型的文献图像,对于相连字符来说,当提取字符时发生问题的主要原因不是因为它们实际上是相连的,而是由于扫描仪(字符图像输入设备)的分辨率低和当二元化处理时二化元的失败。

因此,如果回到明暗图像,即二元化处理后的输入字符图像,那么检测字符之间的相连点要相对容易些。

但是,如果只是简单使用明暗图像,问题会变得更加复杂,包括指定字符区域、处理速度延迟,以及造成诸如错误判断字符位置等严重后果,并且使得性能更加恶化。

因此,本发明的一个目的是提供一种字符提取方法,该方法能够高度精确和有效地找到并分离相连字符,而从形状上则很难找到这些相连字符。

根据本发明,为根据输入的字符图像进行字符识别的字符识别设备提供字符提取方法,该方法包括将输入的字符图像分离成字符区域和背景区域的第一步;利用字符区域中字符图像的像素密度值将第一步分离得到的字符区域分离成两个以上区域的第二步;根据第二步获取的区域信息将字符区域分离成一个一个字符的第三步。

图1是一张放大的视图,该视图是用扫描仪输入前的输入文档图像的示例;

图2是对通过划分成网格输入文档图像的状态进行说明的框图;

图3是显示扫描仪输入的明暗图像的示例的图;

图4是显示二元化图像的示例的框图,该二元化图像是对图3所示明暗图像进行二元化处理后得到的;

图5是示意性显示字符提取设备结构的框图,在该字符提取设备中应用了本发明的字符提取方法;

图6是对本发明字符提取方法进行解释的流程图;

图7是显示由第一个二元化部件二元化处理后的第一个二元化图像的示例的图;

图8是显示由第二个二元化部件二元化处理后的第二个二元化图像的示例的框图;

图9是对字符分离部件中用来确定相连字符位置的方法进行解释的流程图。

优选实施例的详细描述

下面将参照附图对本发明的优选实施例进行描述。

另外,在下面的描述中假定像素的密度值越小,像素越黑;密度值越大,像素越白。(原文可能有误)

图1是一张放大的用扫描仪输入前的输入文档图像。图形“1”和“2”书写时彼此靠得很近;但是由于两者之间具有空白间隔,所以两者并不相连。现在,让我们考虑用扫描仪读取这种文档图像的情况。

扫描仪将文档图像划分成如图2所示的网格,获取每一矩形的密度平均值,并将此平均密度值作为矩形对应的各像素密度而输入。图3显示的是由扫描仪输入的明暗图像的示例。在此例中,明暗图像是一张纵向6点横向12点的图像。

在图3中,着黑色的a部分代表具有最大密度的像素,用交叉斜线所示的b部分代表密度比像素a要小的像素,用粗斜线所示的c部分代表密度比像素b要小的像素,用细斜线所示的d部分代表密度比像素c要小的像素。

当字符之间的空白间隔宽度小于扫描仪所能接收的矩形时,即使小密度的像素位于图3所示的空白间隔部分,也可以获取这些像素。因此,当图像二元化后,得到具有图4所示两个相连字符形状的二元化图像。

在传统的字符提取方法中,只使用图4所示二元化图像分离相连字符。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/00121947.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top