[发明专利]光学字符识别支持系统在审

专利信息
申请号: 202010329591.2 申请日: 2020-04-22
公开(公告)号: CN111860513A 公开(公告)日: 2020-10-30
发明(设计)人: 上条浩一;清水晶;酒井大;石井裕太 申请(专利权)人: 国际商业机器公司
主分类号: G06K9/34 分类号: G06K9/34;G06N20/00;G06F40/232;G06F40/242;G06F40/166
代理公司: 北京市中咨律师事务所 11247 代理人: 于静;杨晓光
地址: 美国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 光学 字符 识别 支持系统
【说明书】:

发明涉及一种光学字符识别支持系统。提供了一种用于提高光学字符识别OCR系统的识别率的计算机实现的方法。该方法包括以下预处理:接收图像;从所述图像中提取所有垂直线。该方法包括:在所述图像的字符区域处添加垂直线;从所述图像中提取所有水平线;以及创建从所述图像中去除所有所述垂直/水平线的无线条图像。该方法还包括:基于每一列中的行像素总数来确定所述无线条图像的垂直方向的边界;以及在所述无线条图像的字符之间添加垂直/水平辅助线。该方法还包括以下后处理:接收OCR输出的乱码单词;在词法上分析之后去除噪声;基于频繁编辑操作,用正确字母替换乱码字母;输出正确单词;以及基于机器学习,对图像距离计算的结果加权。

技术领域

本发明一般地涉及光学字符识别(OCR)系统,更具体地说,涉及提高OCR系统的识别率。

背景技术

电子OCR是将文本(例如,打字、手写或印刷的文本等)的图像电子转换成机器编码的文本。可以从扫描文档、文档照片、场景照片(例如,风景照片中的招牌和广告牌上的文本)、叠加在图像上的字幕文本等提供图像。OCR系统首先识别布局(例如,识别单词和数字的区域),然后提取单词和数字。可以基于OCR系统在布局、单词和/或数字识别方面的性能对OCR系统进行评估。

发明内容

根据本发明的实施例,提供了一种用于提高光学字符识别OCR系统的识别率的方法。所述方法包括接收图像;以及从所述图像中提取所有垂直线。所述方法包括在所述图像的字符区域处添加垂直线;以及从所述图像中提取所有水平线。所述方法包括创建从所述图像中去除所有所述垂直线和水平线的无线条图像。所述方法还包括由处理器设备基于每一列中的行像素总数来确定所述无线条图像的垂直方向的边界;以及在所述无线条图像的字符之间的空白空间中添加垂直辅助线。

根据本发明的实施例,一种用于提高光学字符识别OCR系统的识别率的方法包括接收OCR输出的乱码单词;在词法上分析所述乱码单词之后去除噪声;以及基于频繁编辑操作,用正确字母替换所述乱码字母。所述方法还包括确定所述至少一个乱码单词与多个候选正确单词中的每一者之间的距离;以及使用基于所述距离的评分来选择所述多个候选正确单词中的一者作为正确单词。

根据本发明的实施例,提供了一种用于提高光学字符识别OCR系统的识别率的系统。所述系统包括存储设备,用于存储程序代码;以及至少一个处理器设备,可操作地耦合到所述存储设备,并且被配置为执行存储在所述存储设备上的程序代码,以接收至少一个图像以及从所述至少一个图像中提取所有垂直线。所述程序代码在所述至少一个图像的字符区域处添加垂直线;以及从所述至少一个图像中提取所有水平线。所述至少一个处理器设备执行所述程序代码以创建从所述至少一个图像中去除所有所述垂直线和水平线的无线条图像,以及基于每一列中的行像素总数来确定所述无线条图像的垂直方向的边界。所述程序代码还在所述无线条图像的字符之间的空白空间中添加垂直辅助线。

通过结合附图阅读的本发明的示例性实施例的以下详细描述,上述以及其它特征和优点将变得显而易见。

附图说明

以下描述将参考下面的附图提供优选实施例的细节,这些附图是:

图1是示出根据本发明的实施例的光学字符识别(OCR)支持系统的框图/流程图;

图2是示出根据本发明的实施例的基于辅助线添加的表的预处理的框图;

图3是示出根据本发明的实施例的基于辅助线添加的非表的预处理的框图;

图4是示出根据本发明的实施例的基于水平辅助线添加的表单的预处理的流程图;

图5是示出根据本发明的实施例的在添加垂直辅助线之后添加水平辅助线的预处理的流程图;

图6是示出根据本发明的实施例的将表单划分成块的流程图;

图7是示出根据本发明的实施例的基于机器学习结果来添加水平/垂直线的流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010329591.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top