[发明专利]一种单字区域的合并方法和装置有效

专利信息
申请号: 201710112654.7 申请日: 2012-11-26
公开(公告)号: CN107122778B 公开(公告)日: 2020-06-23
发明(设计)人: 郑琪;王永攀 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06K9/34 分类号: G06K9/34
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 李辉
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 单字 区域 合并 方法 装置
【说明书】:

本发明实施例公开了单字区域的合并方法和装置。其中,该方法包括:提取图像中的连通分量,对所述连通分量进行合并,得到合并过程产生的多个合并区域;排列所述合并区域,得到至少一个文字行;统计所述文字行包含的合并区域的个数,保留包含所述合并区域的个数最多的最大文字行,并删除与之重叠的其他文字行,其中,所述最大文字行中所包含的所述合并区域为所述单字区域。根据本发明实施例,可以解决现有技术中的合并不准确问题。

本申请对申请号为201210486972.7,申请日为2012年11月26日,发明名称为“一种单字区域的合并方法和装置”的中国专利申请提出分案申请。

技术领域

本发明涉及图像处理领域,特别是涉及一种单字区域的合并方法和装置。

背景技术

图像中的文字识别技术有着广泛的实际应用,如扫描文档的内容识别或自动邮政编码识别等。随着数码相机的推广和互联网技术的发展,在拍摄的图像基础上经人工编辑后所生成的图像越来越多,如图1所示,这些人工编辑图像通常有复杂的背景图片、多变的前景颜色和纹理,为了识别这些复杂的人工编辑图像中的文字,先需要进行文字区域的定位和切割,所谓的文字区域就是指上述人工编辑图像中所有单字区域的集合,而此处中的“单字”为泛指,包括阿拉伯数字和各种语言中的文字,如,汉字或拉丁字母等。

在文字区域的定位和切割过程中,关键是要确定人工编辑图像中的每个单字区域。在所有类型的单字中,汉字与拉丁字母相比,由于其是由多个偏旁部首(在图论中,一个汉字中的多个偏旁部首即为多个互不连通的连通分量)组成的,具有更复杂的结构,因此,在确定一个汉字的区域时,就需要将原本属于一个汉字的多个互不连通的连通分量进行组合,即,进行合并处理。与汉字区域情况相同,也需要进行合并处理的单字区域还包括有韩文字区域和日文字区域等。

现有合并单字区域的方法一般都是分析每个连通分量之间的间距以及位置关系,将符合特定间距阈值和特定位置关系的所有连通分量作为属于一个单字区域的连通分量,并进行合并。在合并过程中,当被合并的连通分量的个数达到特定数量阈值时停止合并。

但是,在实现发明的过程中,本发明的发明人发现现有的单字区域合并方法至少存在如下技术问题:由于每个单字区域包含的连通分量的个数不同,以及不同单字区域之间的间距也千差万别,因此,无论如何选择间距阈值或数量阈值,在合并过程中都容易产生将原本属于一个单字区域的多个连通分量合并为多个单字区域的过分割问题,或将原本不属于一个单字区域的连通分量也合并到该单字区域的过合并的问题。

发明内容

为了解决上述技术问题,本发明实施例提供了一种单字区域的合并方法和装置,以解决现有技术中的合并不准确问题。

本发明实施例公开公开了如下技术方案:

一种单字区域的合并方法,包括:

提取图像中的连通分量,对所述连通分量进行合并,得到合并过程产生的多个合并区域;

排列所述合并区域,得到至少一个文字行;

统计所述文字行包含的合并区域的个数,保留包含所述合并区域的个数最多的最大文字行,并删除与之重叠的其他文字行,其中,所述最大文字行中所包含的所述合并区域为所述单字区域。

一种单字区域的合并装置,包括:

合并模块,用于提取图像中的连通分量,对所述连通分量进行合并,得到合并过程产生的多个合并区域;

文字行排列分析模块,用于排列所述合并区域,得到至少一个文字行;

第一选择模块,用于统计所述文字行包含的合并区域的个数,保留包含所述合并区域的个数最多的最大文字行,并删除与之重叠的其他文字行,其中,所述最大文字行中所包含的所述合并区域为所述单字区域。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710112654.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top