[发明专利]图像识别方法和图像识别设备在审
申请号: | 201610065491.7 | 申请日: | 2016-01-29 |
公开(公告)号: | CN107025452A | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 许亮;范伟;孙俊;直井聪 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 朱胜,李春晖 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 识别 方法 设备 | ||
技术领域
本公开涉及数据处理技术领域,更具体地,涉及一种能够结合简单快速的字符分类器和复杂高精度的字符分类器对具有表格结构的图像进行识别的图像识别方法和图像识别设备。
背景技术
增值税发票(抵扣联)识别是企业的财务共享中心的一项重要内容。通过扫描增值税发票(抵扣联),得到增值税发票的数字图像,然后通过增值税发票识别系统,产生电子化的增值税发票的表格数据。
传统的发票识别方法一般基于严格定义的发票结构模板,找到对应的条目位置,然后通过二值化提取文字,再进行字符分割和字符识别。银行流水单的识别方法与上述发票识别方法类似。传统的方法存在如下的不足:
(1)不能正确处理后打印文字和预打印文字交叠的情形。发票上的条目内容包含预打印文字和后打印文字,预打印文字的位置一般是固定的,但后打印文字的位置是不固定的,可能偏离结构模板的指定区域。图1是示出发票上后打印文字与预打印文字和表格线交叠的示例的图。如图1所示,后打印文字和预打印文字(在图1中,预打印文字为“密码区”)交叠,并且后打印文字和表格线交叠。
(2)不能正确识别后打印文字带有噪声的情形。发票上除了打印的文字,还可能会有加盖的红章、灰尘污垢等,二值化后会给后打印文字带来噪声,从而导致不能正确识别。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意 图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上问题,本公开的目的是提供一种图像识别方法和图像识别设备,其能够结合简单快速的字符分类器和复杂高精度的字符分类器对具有表格结构的图像进行识别,从而实现高精度的字符识别,同时识别速度较快。
根据本公开的一方面,提供了一种用于对具有表格结构的输入图像进行识别的图像识别方法,其中输入图像包含有一个或多个预打印字符串以及一个或多个后打印字符串,该图像识别方法可以包括:提取步骤,可以用于从输入图像中提取出表格结构;定位步骤,可以用于基于表格结构的先验知识,获得一个或多个后打印字符串中的至少一个后打印字符串的位置信息;以及识别步骤,对于至少一个后打印字符串中的每个后打印字符,可以采用基于二值化图像的第一字符分类器和基于灰度图像的第二字符分类器来对该后打印字符进行识别。
根据本公开的另一方面,还提供了一种用于对具有表格结构的输入图像进行识别的图像识别设备,其中输入图像包含有一个或多个预打印字符串以及一个或多个后打印字符串,该图像识别设备可以包括:提取单元,可以被配置成从输入图像中提取出表格结构;定位单元,可以被配置成基于表格结构的先验知识,获得一个或多个后打印字符串中的至少一个后打印字符串的位置信息;以及识别单元,可以被配置成对于至少一个后打印字符串中的每个后打印字符,采用基于二值化图像的第一字符分类器和基于灰度图像的第二字符分类器来对该后打印字符进行识别。
根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成 说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出发票上后打印文字与预打印文字和表格线交叠的示例的图;
图2是示出根据本公开的实施例的图像识别方法的流程示例的流程图;
图3是示出具有表格结构的输入图像的示例的图;
图4是示出从输入图像中提取出的表格结构的示例的图;
图5是示出从输入图像中定位出后打印字符串的示例的图;
图6是示出包含噪声的字符串图像的示例的图;
图7是示出包含破裂字符的字符串图像的示例的图;
图8是示出残缺字符的示例的图;
图9是示出CNN分类器对字符进行识别的流程的示例的图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610065491.7/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序