[发明专利]一种OCR识别方法和设备在审

专利信息
申请号: 202210950890.7 申请日: 2022-08-09
公开(公告)号: CN115311663A 公开(公告)日: 2022-11-08
发明(设计)人: 马嘉林;孙瑛;孙钦平;崔方剑;张春雨 申请(专利权)人: 青岛海信信息科技股份有限公司
主分类号: G06V30/19 分类号: G06V30/19;G06V30/14;G06V30/148
代理公司: 北京睿博行远知识产权代理有限公司 11297 代理人: 计小玲
地址: 266000 山东省*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 ocr 识别 方法 设备
【说明书】:

发明公开了一种OCR识别方法和设备,获取待检测图像;通过文本检测模型对所述待检测图像进行文本检测;基于通用图像识别模型匹配所述待检测图像对应的模板,基于所述模板对所述待检测图像进行文本识别,并输出识别结果,通过制作识别图像的模板,将识别图像与模板匹配,实现了对于通用类图像的自动化识别,并自动给出了解析结果,提高了OCR识别的通用性。

技术领域

本申请涉及图像识别技术领域,更具体地,涉及一种OCR识别方法和设备。

背景技术

OCR(Optical Character Recognition,光学字符识别)是指针对电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定字符形状,然后用字符识别方法将形状翻译成计算机文字的过程。相关技术中,OCR算法基本都是采取模型串联的方式完成的系统部署,即将各个算法模块(例如图像检测子模块、文本检测子模块以及识别子模块)级联起来作为引擎工程的一个进程,具体的处理逻辑按照级联顺序大致有如下步骤:输入图像、预处理、证件检测、文本检测、文本识别、后处理结构化等。

现有技术中的OCR识别方法往往依赖于识别的对象的特点,进行个性化的模版定制,例如针对票据、报纸、教材等识别的对象,甚至针对不同字号、字体的光学字符识别,都需要重新定制相应的光学字符识别模板,才能采用特定的光学字符识别模板的进行识别。

现有技术的OCR识别方法中,定制光学字符识别模板的训练数据量很高,训练时间长,定制识别模板的效率低,很难转移到其他识别对象中应用,定制光学字符识别模板容易受字符变化等因素的影响,OCR识别方法应用的定制光学字符识别模板对对象的依赖性强,影响了OCR识别效率

因此,如何提供一种OCR识别方法,以提高OCR识别的通用性,是目前有待解决的技术问题。

发明内容

本发明提供一种OCR识别方法,用以解决现有技术OCR识别方法通用性低,需要进行模板定制,模板训练难度大的问题,所述方法:

获取待检测图像;

通过文本检测模型对所述待检测图像进行文本检测;

基于通用图像识别模型匹配所述待检测图像对应的模板,基于所述模板对所述待检测图像进行文本识别,并输出识别结果。

在本申请一些实施例中,通过文本检测模型对所述待检测图像进行文本检测,具体为:

获取所述待检测图像的位置特征信息,并基于所述位置特征信息确定所述待检测图像的类型;

调用待检测图像的类型对应的文本检测模型识别所述待检测图像的文本信息的位置,截取所述文本信息的对应位置,并在截取后发送到所述通用图像识别模型进行图像识别。

在本申请一些实施例中,所述通用图像识别模型还包括表格识别模型,基于通用图像识别模型匹配所述待检测图像对应的模板,基于所述模板对所述待检测图像进行文本识别,并输出识别结果,具体为:

通过所述通用图像识别模型匹配与所述待检测图像对应的模板;

基于所述模板识别所述待检测图像的文本信息;

基于所述表格识别模型确定所述待检测图像的结构化信息;

基于所述文本信息及所述结构化信息输出识别结果。

在本申请一些实施例中,所述文本检测模型的建立过程具体为:

获取多种类型的样本图像;

提取各样本图像的关键文字的位置特征信息,根据所述位置特征信息构建所述文本检测模型。

在本申请一些实施例中,所述通用图像识别模型的建立过程具体为:

获取多个类型的样本图像,提取所述样本中训练图像所记载文本信息的文字特征信息;

获取文字特征信息对应的训练文本信息,分析文字特征信息与训练文本信息之间的对应关系,得到映射信息;

根据所述映射信息构建通用识别模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛海信信息科技股份有限公司,未经青岛海信信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210950890.7/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top