[发明专利]OCR识别结果位置校正方法及相关设备在审

专利信息
申请号: 202110889386.6 申请日: 2021-08-04
公开(公告)号: CN113610093A 公开(公告)日: 2021-11-05
发明(设计)人: 王伟;黄勇其;于翠翠;张黔 申请(专利权)人: 润联软件系统(深圳)有限公司
主分类号: G06K9/32 分类号: G06K9/32;G06K9/34;G06K9/00
代理公司: 深圳市世联合知识产权代理有限公司 44385 代理人: 汪琳琳
地址: 518000 广东省深圳市福田区梅林街*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: ocr 识别 结果 位置 校正 方法 相关 设备
【说明书】:

本申请实施例属于文档识别技术领域,涉及一种OCR识别结果位置校正方法,包括通过基于OCR技术的识别模型对识别文档进行实体识别,得到识别结果;构建各所述文档实体的方位关系空间;基于所述方位关系空间,提取各所述文档实体的实体表征向量以及方位关系表征向量;将所述实体表征向量和所述方位关系表征向量输入到训练后的方位校正模型中,得到各方位关系空间中文档实体的方位标签序列,并基于所述方位标签序列对各所述文档实体进行位置校正,得到校正结果。采用本方法减少了服务端数据处理量,扩大了应用场景。

技术领域

本申请涉及OCR文档识别技术领域,特别是涉及一种OCR识别结果位置校正方法、装置、计算机设备和存储介质。

背景技术

随着人们对数据价值的日益重视,需要对历史上积累的大量文档进行电子化,然后从中抽取有用的信息,而OCR技术则是信息抽取任务中的重要环节,其识别文字或者符号的准确度对后续任务有着很大影响。

但是由于输入到OCR系统的文档,例如图片、PDF等的质量往往不高,以及目前算法的普遍缺陷,会导致以下结果:单个字符识别准确率很高,但是对于跨页的文档、表格等数据,识别往往会出现错误的情形,还需要耗费不少精力去校对还原,为了解决这类缺陷,近年来出现了一些改进方法。

申请号为CN202011264865.0的中国发明专利申请公开了一种文本段落结构还原方法,包括对目标图像进行识别,基于识别结果确定目标图像中所有文本框和各文本框的文本框位置,根据各文本框位置对各文本框进行排序,并基于排序结果将各文本框的文本特征输入至预设的深度学习模型进行训练,基于训练的训练结果对各文本框进行合并处理,以获取目标图片对应的所有文本段落。

但是在实际实施中发现,该方式需要提取遍历的文本框的位置特征、语言特征以及图像特征,再将之作为遍历的文本框的文本特征。由于需要提取大量的特征来训练深度神经网络模型,使得数据处理的量大大增加,限制了该方式的使用场景。

发明内容

基于此,针对上述技术问题,本申请提供一种OCR识别结果位置校正方法、装置、计算机设备及存储介质,以解决现有技术中数据处理量大,导致的使用场景被限制的技术问题。

一种OCR识别结果位置校正方法,所述方法包括:

通过基于OCR技术的识别模型对识别文档进行实体识别,得到识别结果,其中,所述识别结果中包括至少一个文档实体;

构建各所述文档实体的方位关系空间;

基于所述方位关系空间,提取各所述文档实体的实体表征向量以及方位关系表征向量;

将所述实体表征向量和所述方位关系表征向量输入到训练后的方位校正模型中,得到各方位关系空间中文档实体的方位标签序列,并基于所述方位标签序列对各所述文档实体进行位置校正,得到校正结果。

一种OCR识别结果位置校正装置,所述装置包括:

识别模块,用于通过基于OCR技术的识别模型对识别文档进行实体识别,得到识别结果,其中,所述识别结果中包括至少一个文档实体;

构建模块,用于构建各所述文档实体的方位关系空间;

提取模块,用于基于所述方位关系空间,提取各所述文档实体的实体表征向量以及方位关系表征向量;

校正模块,用于将所述实体表征向量和所述方位关系表征向量输入到训练后的方位校正模型中,得到各方位关系空间中文档实体的方位标签序列,并基于所述方位标签序列对各所述文档实体进行位置校正,得到校正结果。

一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述OCR识别结果位置校正方法的步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于润联软件系统(深圳)有限公司,未经润联软件系统(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110889386.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top