[发明专利]光学字符识别后处理的方法、装置及计算机可读存储介质在审

专利信息
申请号: 201710929630.0 申请日: 2017-10-09
公开(公告)号: CN109635801A 公开(公告)日: 2019-04-16
发明(设计)人: 熊怀欣 申请(专利权)人: 株式会社理光
主分类号: G06K9/22 分类号: G06K9/22;G06K9/34;G06K9/62
代理公司: 北京银龙知识产权代理有限公司 11243 代理人: 黄灿;姜精斌
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 后处理 计算机可读存储介质 光学字符识别 错误字符 去除 噪音 单个字符 方式更新 后验概率 人工参与 识别性能 在线更新 字典 修正 输出 融合 评估
【说明书】:

发明提供了一种光学字符识别后处理的方法、装置及计算机可读存储介质,本发明实施例基于单个字符的后验概率评估,可以有效的去除OCR识别结果中的噪音字符/错误字符,减少最终人工参与修正确认的次数,从而改善OCR的识别性能。另外,本发明还可以对多个OCR识别结果进行融合,使得后处理输出的结果可以包含更多正确字符的同时,去除噪音字符/错误字符干扰。另外,本发明还可以通过在线更新的方式更新字典,有助于实现OCR识别处理的自我完善,进一步提升OCR识别性能。

技术领域

本发明涉及光学字符识别(OCR,Optical Character Recognition)技术领域,具体涉及一种光学字符识别后处理的方法、装置及计算机可读存储介质。

背景技术

在人工智能领域里,OCR一直占据着重要的位置,它提供了一种便捷的从外部采集数据的手段。除了传统的文档识别,OCR技术还被广泛的运用到其它方面,比如药盒药品注册管理(提取药盒上印刷的药品名称),信封地址识别,身份证信息采集,电影票名称识别等。在这些应用系统里,尽管OCR只占据了比较小的部分,但其所涉及的待识别的字符集通常也是比较大的字符集。上述应用系统通常直接采用成熟的商业OCR引擎或者开源的OCR算法来执行对应的OCR识别任务,而不是针对性的开发一个新的OCR引擎。然而,由于被识别的对象的字体的多样性,且大小不一,同时受背景图案的干扰,同传统的文档识别相比,诸如药盒识别这样的应用系统的识别结果的正确率较低。

另外,由于每个OCR引擎/算法通常都有自己的适用条件,其性能在一些具有挑战性的环境下未必很好。一个典型的现象就是,在这些环境下OCR输出的字符串长度通常都大于实际的字符串长度,其原因在于OCR识别的字符串中就包含了被错误识别出的字符和由于字符分割错误或背景干扰引入的噪音字符。例如,采用开源引擎TesseractOCR来识别药盒名称,其正确字符识别率为75.9%,平均的编辑距离是0.505204,这就意味着对于长度为10个字符的药盒名,大约只有7.5个字符能被正确识别出来,需要人工参与修改和更正至少5次操作(删除错误字符和插入新的缺失字符操作)才能完成药品名称的正确采集。

发明内容

本发明实施例要解决的技术问题是提供一种光学字符识别后处理的方法、装置及计算机可读存储介质,可以有效去除OCR识别结果中的噪音字符和/或错误字符,提升OCR的识别性能。

为解决上述技术问题,本发明实施例提供的光学字符识别后处理的方法,包括:

获取光学字符识别得到的第一字符串;

对所述第一字符串进行第一迭代减字分解处理,构造第一树状结构,并生成包括第一树状结构各节点的字符串的第一字符串集合;

针对所述第一字符串的每个字符,确定所述第一字符串集合中包含有所述字符的第一类字符串,并根据一预先生成的字典中记录的所述第一类字符串的出现频次,计算得到所述字符的后验概率,其中,所述字符的后验概率与所述第一类字符串的出现频次正相关;

根据所述后验概率,对所述第一字符串中去噪/去错处理,得到第二字符串;

其中,所述第一迭代减字分解处理是针对待分解处理的字符串构造第一树状结构,所述第一树状结构中:各个节点均为互不相同的字符串,根节点的字符串为所述待分解处理的字符串,子节点的字符串为上一级父节点的字符串去除一个字符,且保持剩余字符的排序不变所得到的;且若一个节点的字符串存在于所述字典中,或该节点的字符串的长度等于预设长度,则该节点为叶子节点。

本发明实施例还提供了一种光学字符识别的后处理装置,包括:

第一获取单元,用于获取光学字符识别得到的第一字符串;

第一分解单元,用于对所述第一字符串进行第一迭代减字分解处理,构造第一树状结构,并生成包括第一树状结构各节点的字符串的第一字符串集合;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710929630.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top