[发明专利]一种单字区域的合并方法和装置有效
申请号: | 201710112654.7 | 申请日: | 2012-11-26 |
公开(公告)号: | CN107122778B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 郑琪;王永攀 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 单字 区域 合并 方法 装置 | ||
本发明实施例公开了单字区域的合并方法和装置。其中,该方法包括:提取图像中的连通分量,对所述连通分量进行合并,得到合并过程产生的多个合并区域;排列所述合并区域,得到至少一个文字行;统计所述文字行包含的合并区域的个数,保留包含所述合并区域的个数最多的最大文字行,并删除与之重叠的其他文字行,其中,所述最大文字行中所包含的所述合并区域为所述单字区域。根据本发明实施例,可以解决现有技术中的合并不准确问题。
本申请对申请号为201210486972.7,申请日为2012年11月26日,发明名称为“一种单字区域的合并方法和装置”的中国专利申请提出分案申请。
技术领域
本发明涉及图像处理领域,特别是涉及一种单字区域的合并方法和装置。
背景技术
图像中的文字识别技术有着广泛的实际应用,如扫描文档的内容识别或自动邮政编码识别等。随着数码相机的推广和互联网技术的发展,在拍摄的图像基础上经人工编辑后所生成的图像越来越多,如图1所示,这些人工编辑图像通常有复杂的背景图片、多变的前景颜色和纹理,为了识别这些复杂的人工编辑图像中的文字,先需要进行文字区域的定位和切割,所谓的文字区域就是指上述人工编辑图像中所有单字区域的集合,而此处中的“单字”为泛指,包括阿拉伯数字和各种语言中的文字,如,汉字或拉丁字母等。
在文字区域的定位和切割过程中,关键是要确定人工编辑图像中的每个单字区域。在所有类型的单字中,汉字与拉丁字母相比,由于其是由多个偏旁部首(在图论中,一个汉字中的多个偏旁部首即为多个互不连通的连通分量)组成的,具有更复杂的结构,因此,在确定一个汉字的区域时,就需要将原本属于一个汉字的多个互不连通的连通分量进行组合,即,进行合并处理。与汉字区域情况相同,也需要进行合并处理的单字区域还包括有韩文字区域和日文字区域等。
现有合并单字区域的方法一般都是分析每个连通分量之间的间距以及位置关系,将符合特定间距阈值和特定位置关系的所有连通分量作为属于一个单字区域的连通分量,并进行合并。在合并过程中,当被合并的连通分量的个数达到特定数量阈值时停止合并。
但是,在实现发明的过程中,本发明的发明人发现现有的单字区域合并方法至少存在如下技术问题:由于每个单字区域包含的连通分量的个数不同,以及不同单字区域之间的间距也千差万别,因此,无论如何选择间距阈值或数量阈值,在合并过程中都容易产生将原本属于一个单字区域的多个连通分量合并为多个单字区域的过分割问题,或将原本不属于一个单字区域的连通分量也合并到该单字区域的过合并的问题。
发明内容
为了解决上述技术问题,本发明实施例提供了一种单字区域的合并方法和装置,以解决现有技术中的合并不准确问题。
本发明实施例公开公开了如下技术方案:
一种单字区域的合并方法,包括:
提取图像中的连通分量,对所述连通分量进行合并,得到合并过程产生的多个合并区域;
排列所述合并区域,得到至少一个文字行;
统计所述文字行包含的合并区域的个数,保留包含所述合并区域的个数最多的最大文字行,并删除与之重叠的其他文字行,其中,所述最大文字行中所包含的所述合并区域为所述单字区域。
一种单字区域的合并装置,包括:
合并模块,用于提取图像中的连通分量,对所述连通分量进行合并,得到合并过程产生的多个合并区域;
文字行排列分析模块,用于排列所述合并区域,得到至少一个文字行;
第一选择模块,用于统计所述文字行包含的合并区域的个数,保留包含所述合并区域的个数最多的最大文字行,并删除与之重叠的其他文字行,其中,所述最大文字行中所包含的所述合并区域为所述单字区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710112654.7/2.html,转载请声明来源钻瓜专利网。