[发明专利]字符识别装置及方法、字符识别程序有效

专利信息
申请号: 201310661200.7 申请日: 2013-12-06
公开(公告)号: CN103870823A 公开(公告)日: 2014-06-18
发明(设计)人: 三好利升;新庄广;永崎健;堤庸昂 申请(专利权)人: 株式会社日立信息通信工程
主分类号: G06K9/20 分类号: G06K9/20;G06K9/00
代理公司: 北京市金杜律师事务所 11256 代理人: 陈伟;王娟娟
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 字符 识别 装置 方法 程序
【说明书】:

技术领域

本发明涉及字符识别装置及方法、字符识别程序,尤其涉及具有组合了多个舍弃值的舍弃判定方式的光学式字符识别装置及方法、字符识别程序。另外,本实施例在字符识别的技术中尤其还涉及舍弃的技术。

背景技术

本技术领域涉及光学式字符识别(OCR:Optical Character Recognition;光学字符识别)装置。OCR装置通过扫描仪等读取纸类文件,并识别图像中的文字和/或符号,由此,通过代码化成Unicode(统一码)等来进行电子化。OCR装置在一般企业、自治机构、金融机构、医疗机构、教育机构等中,用于会计票据、缴纳完成通知书、工资报告单、订单、成批转账单、医疗费用明细、答题纸等的电子化。另外,面向一般用户时,在基于移动电话进行的字符识别、便签等一般文件中的字符识别中使用。

简略地说明基于OCR装置的文件电子化的处理流程。

图6是用于说明基于字符识别装置的文件电子化的流程图。首先,进行基于扫描仪等的文件图像化、二值化和噪声处理等的前处理。由此,例如能够得到图6的附图标记601那样的二值的文件图像。接下来,通过基于OCR装置进行的、图表位置和/或文件段落构造等的布局分析和字符串提取,而得到例如图6的附图标记602那样的字符串图像。之后,OCR装置通过字符切取而从字符串图像中切取字符单位的图像,然后,识别各个图像中的字符。从文件的图像化到字符串提取为止的处理例如在专利文件1、专利文献2中有所记载。另外,到从字符串图像中识别各个字符为止的处理例如在专利文献3、非专利文献1、非专利文献2中有所记载。

本技术涉及各个字符图像的识别技术。以下,简单说明对各个字符图像中描绘的字符进行识别的技术。

首先,进行将字符图像转换为矢量值的特征提取处理。当将矢量值的维数设为N时,通过特征提取处理而将一个字符图像表现为N维矢量。从相同字符种类的字符图像中提取的N维矢量分布在N维空间中的较近位置上。

图9通过示意图而示出上述情况。圆形、三角形、四边形分别表示从与字符种类A、字符种类B、字符种类C对应的各字符图像提取出的矢量值。

接下来,参照预先生成的字符识别用辞典,基于从字符图像提取出的矢量值,来识别字符图像中描绘的字符。

在此,首先说明字符识别辞典。在字符识别用辞典中,例如对于各识别对象字符种类k而保存有将N维矢量取为自变量、将实数值取为值的识别函数fk(x)。识别函数fk(x)是以针对从描绘有字符种类k的字符图像所生成的N维矢量x而取较大值,针对从描绘有其他字符种类的字符图像所生成的N维矢量x而取较小值的方式,预先通过学习而生成的。识别函数fk(x)的值称为相对于矢量x的字符种类k的相似度、似然度(likelihood)等。例如,在将数字作为对象来识别的情况下,与0~9这十个数字种类对应地存在有10个识别函数f0(x)、f1(x)、…、f9(x)。

在字符的识别中,使用从字符图像提取出的N维矢量x,来计算各字符种类的识别函数fk(x)的值。识别函数fk(x)的值是相对于字符种类k的相似度,由此,fk(x)的值最大的字符种类k成为识别结果的第一候选。同样地,值第二大的识别函数对应的字符种类k成为识别结果的第二候选。这样,能够得到直到第n候补的识别结果。

图7是用于说明字符识别结果的图。例如,通过图6的字符切取(附图标记603)所切取的字符图像的识别如图7所示。通过以上内容,得到图6的附图标记604那样的识别结果,并转换为计算机能处理的字符代码等的代码。

上述所说明的字符识别是计算字符图像和各识别对象字符种类的相似度,并基于此而得到候选字符的处理。为了提高OCR装置的有用性,该字符识别的精度是重要的。但是,在识别结果可疑的情况下,使通知该情况的识别结果的舍弃处理也是重要的。

图12是用于表示非字符和不明确字符的示例的图。在成为舍弃对象的字符中,具有例如图12的字符例1201所示的非字符、和字符串1202所示的不明确字符。非字符例如是基于字符切取错误所导致的字符的一部分和/或多个字符合在一起的图像、混入了污渍等干扰因素的图像等。不明确字符例如是如字符例1202的左端图像所示地无法区别7和9的情况等。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立信息通信工程,未经株式会社日立信息通信工程许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310661200.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top