[发明专利]确定平均字符宽度的方法和装置及字符切分方法和设备有效

专利信息
申请号: 201110355148.3 申请日: 2011-11-08
公开(公告)号: CN103093224A 公开(公告)日: 2013-05-08
发明(设计)人: 许梅芳;罗兆海 申请(专利权)人: 佳能株式会社
主分类号: G06K9/34 分类号: G06K9/34
代理公司: 中国国际贸易促进委员会专利商标事务所 11038 代理人: 李颖
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 确定 平均 字符 宽度 方法 装置 切分 设备
【说明书】:

技术领域

本发明涉及用于切分文档图像(具体地,文本行或文本列)中的字符的字符切分方法和设备,并且更特别地,涉及用于通过使用平均字符宽度来执行字符切分的方法和设备,所述平均字符宽度是通过用于确定文档图像中的文本行或文本列的平均字符宽度的方法和装置而得到的。

背景技术

在光学字符识别(OCR)系统中,通常例如通过使用“黑像素投影”的方法来执行字符切分。但是,当使用该方法时,将出现两种切分错误。一种切分错误是“不能检测连通字符的切分点”,另一种切分错误是“将至少由两部分构成的并且在这些部分之间具有空白的字符(以下,为了简洁起见,这样的字符将被称为具有规定结构的字符),例如具有左右结构或者上下结构的字符,划分为两个或多个部分”。例如,在中文字符中常常出现上述的“连通字符”和“具有规定结构的字符”。图12示例性地示出了一些错误切分的字符。

鉴于以上情况,作为有效的辅助手段,当文档图像中的文本段或文本行/列包括宽度基本上相互一致的字符时,平均字符宽度(ACW)常常被用于进一步切分连通字符以及合并具有规定结构的字符的各部分。

具体地,对于连通字符,基于图像的切分方法(例如投影,轮廓或相邻列的黑像素连通度等)可能能够通过调整它们的阈值来检测切分点。但是,即便如此,也出现错误的切分点。在很多情况下,正确的切分点只是所有被检测的切分点中的一小部分。如果不加考虑地处理所有的切分点,那么OCR的速度将急剧降低。此时,平均字符宽度可以对于切分点的数量和它们的位置进行粗略的估计,并且,很多错误的切分点将被放弃。这样,可以大大地提高OCR的速度。另外,对于具有规定结构的字符,当两个或更多个被误分离的部分是被OCR引擎支持的字符或者是具有相似的形状并且具有较高识别置信度的字符时,基于识别置信度的切分后处理方法难以找到正确的切分图形。此时,这些字符的宽度与平均字符宽度之间的差可被用来判断哪个切分图形在当前行/列中是合理的,这能够有效地提高字符切分的精度。

因此,为了校正被误分离的或被误组合的字符,希望以高的精度计算平均字符宽度,并且不精确的平均字符宽度将导致切分错误,由此将降低OCR的精度。

当前,存在两种用于计算平均字符宽度的方法。

第一种方法(也被称为“方法1”)在本文被称为行高方法,其中,基于字符的宽高比遵循某个限制的假设,可通过将文本行的高度(以下被称为“行高”)乘以某个系数而得到文本行的平均字符宽度。通过上述方法得到的平均字符宽度通常可满足上面的切分要求,但是,该方法难以应对常常出现在标题或页眉等中的太宽或太窄的字符。

第二种方法(也被称为“方法2”)在本文中被称为宽高比(简写为WHR)范围方法,其中,基于诸如“黑像素投影”的通常的切分方法的切分结果,具有合理宽高比(WHR)的字符被选择并且然后这些所选字符的宽度的平均值被用作文本行的平均字符宽度。但是,在应用第二种方法时,设置宽高比的范围是困难的。具体地,如果宽高比的限制是严格的,那么该方法同样不能处理太宽或太窄的字符;相反,在不严格的限制下,一些被误切分的字符将影响平均字符宽度的精度,当文本行短时或者当存在很多具有规定结构的字符时尤其如此。

由上可知,这两种方法不能处理所有的情况。也就是说,由这两种方法所得到的平均字符宽度不一定在所有情况下是精确的或者准确的(反映字符的真实宽度)。

日本专利公布No.JP 2000-040122公开了一种字符切分方法。具体地,在该方法中,在执行字符切分和得到粗略的切分结果之后,计算各字符的宽度柱状图并且将字符数量最多的字符宽度当作标准字符宽度。在该方法中,使用了各字符的宽度的分布,并且与上面描述的方法2有点相似。

日本专利公布No.H05-114048公开了一种用于识别字符的方法和设备,其中,通过利用投影的方法来执行字符切分,并且根据切分结果计算平均字符宽度。当单个字符的宽度大于平均字符宽度时,将通过边界追踪方法对该字符再次切分。但是,该方法仅关注如何利用平均字符宽度,而没有关注如何计算平均字符宽度。

然而,缺少有效的用于判断所得到的平均字符宽度是否适当的方法。进一步地,如果所得到的平均字符宽度不适当,则需要用于得到适当的平均字符宽度的方法。

发明内容

本发明旨在解决上面描述的问题。本发明的一个目的是提供解决上面的问题之一或其全部的方法和装置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110355148.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top