[发明专利]文字图像抽出装置及文字图像抽出方法有效
申请号: | 200710129605.0 | 申请日: | 2007-07-23 |
公开(公告)号: | CN101354746A | 公开(公告)日: | 2009-01-28 |
发明(设计)人: | 吴波;窦建军;乐宁;吴亚栋;贾靖 | 申请(专利权)人: | 夏普株式会社 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 雒运朴;徐谦 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 图像 抽出 装置 方法 | ||
技术领域
本发明涉及从排列两个或两个以上文字的文字列区域中抽出各文字的图像的文字图像抽出装置及文字图像抽出方法。
背景技术
一种利用图像扫描仪等图像输入装置将文档转换成图像,并以电子方式进行存储,且在之后可以检索的文档归档装置已得到实用化。在这样的文档归档装置中,为了之后能够检索,需要从文档图像中的文字列区域中抽出各文字的图像。
在文字列区域中,多数情况下除了文字以外还包含标点符号等,而且还有多数情况下包含噪声部分。标点符号及噪声部分对检索来说是不需要的。尽管如此,在以往的文档归档装置中,在从文字列区域中抽出各文字的图像时,不仅抽出包含文字的要素,也抽出包含标点符号的要素及包含噪声部分的要素。
发明内容
本发明的目的在于,提供一种可以从排列两个或两个以上文字的文字列区域中高精度地抽出各文字的图像的文字图像抽出方法及文字图像抽出装置。
本发明是一种文字图像抽出方法,其特征在于,包括:抽出步骤,对排列两个或两个以上文字的文字列区域,求出由相互连接的两个或两个以上像素构成的连接成分,并从上述文字列区域中,抽出由与连接成分外接的外接图形划分的划分要素;
改变步骤,改变在抽出步骤中抽出的划分要素,且在抽出步骤中抽出的划分要素中,将至少一部分相互重叠的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
选择步骤,预先确定基准大小,且在改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。
根据本发明,通过抽出步骤,从排列两个或两个以上文字的文字列区域中抽出划分要素。通过改变步骤,改变在抽出步骤中抽出的划分要素。通过选择步骤,选择改变步骤中改变的划分要素的一部分。
在抽出步骤中,对文字列区域,求出由相互连接的两个或两个以上像素构成的连接部分,并抽出由与连接成分外接的外接图形划分的划分要素。在该划分要素中,包含文字整体的要素、和包含文字一部分的要素。另外,在该划分要素中有包含标点符号的要素。所谓标点符号是指句点类、括弧类及中点类等描述记号。进而,在该划分要素中,还有包含不属于文字及标点符号任何一方的噪声部分的要素。
在改变步骤中,将至少一部分相互重叠的划分要素进行综合并作为新的划分要素。由此,可以对某些文字,将包含该文字的一部分的要素与包含该文字的另一部分的要素进行综合,而得到包含该文字整体的一个要素。另外,可以对某些文字,将包含该文字一部分的要素与包含该文字整体的要素进行综合,而得到包含该文字整体的一个要素。
而且在改变步骤中,将剩余的划分要素按原样作为新的划分要素。由此,可以防止包含标点符号的要素及包含噪声部分要素,并不是按所希望的方式被综合而变成较大的要素的情况。从而,可以防止在后述的选择步骤中意料之外地选择包含标点符号的要素及包含噪声部分的要素。
包含标点符号的要素及包含噪声部分的要素,比包含文字的要素小。利用这点,在选择步骤中,预先确定基准大小,在改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。由此,可以在改变步骤中改变的划分要素中选择包含文字的要素。换言之,可以从改变步骤中改变的划分要素中,将包含标点符号的要素及包含噪声部分的要素排除。
在这样的本发明中,可以从文字列区域中高精度地抽出包含文字的要素并作为文字图像。换言之,可以不会错误地从文字列区域中抽出包含标点符号的要素及包含噪声部分的要素,而抽出包含文字的要素。
另外,本发明的特征在于,还包括:第二改变步骤,改变上述选择步骤中选择的划分要素,且预先确定第一基准尺寸,并在上述选择步骤中选择的划分要素中,将与文字的排列方向有关的尺寸比上述第一基准尺寸还小且相互在文字的排列方向上相邻的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
第二选择步骤,预先确定第二基准尺寸,且在第二改变步骤中改变的划分要素中,选择与文字的排列方向有关的尺寸比上述第二基准尺寸还大的划分要素。
另外根据本发明,通过第二改变步骤,改变选择步骤中选择的划分要素。通过第二选择步骤,选择第二选择步骤中改变的划分要素的一部分。
文字列区域的各文字,有时大小互不相同。这种情况下,常有包含比较小的文字的两个或两个以上要素在文字的排列方向上相邻的情况。然而,包含标点符号的要素在文字的排列方向上相邻的情况较少,而且,包含噪声部分的要素在文字的排列方向上相邻的情况也较少。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏普株式会社,未经夏普株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710129605.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序