[发明专利]票据信息文本框获取方法、系统、设备及存储介质在审

专利信息
申请号: 202011471091.9 申请日: 2020-12-14
公开(公告)号: CN112613367A 公开(公告)日: 2021-04-06
发明(设计)人: 王丹;屈舜中 申请(专利权)人: 盈科票据服务(深圳)有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/20;G06K9/62
代理公司: 深圳市恒程创新知识产权代理有限公司 44542 代理人: 刘冰
地址: 518000 广东省深圳市南山区粤海街道高*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 票据 信息 文本框 获取 方法 系统 设备 存储 介质
【说明书】:

本发明公开了票据信息文本框获取方法、系统、设备及存储介质,该方法包括:获取待识别票据图片,并识别待识别票据图片中包含的所有文本框;提取所有文本框中每个文本框的文本框特征;根据每个文本框的文本框特征,采用预设检测模型判断每个文本框作为目标文本框的预测概率值;将预测概率值最大的文本框确定为对应类型的目标文本框。本发明解决了现有的票据识别方法中的提取规则过于复杂,难以维护,且容易出现规则冲突的问题,提高了票据识别中文本框的获取精度,保证了票据信息提取的准确性。

技术领域

本发明涉及图像识别技术领域,尤其涉及一种票据信息文本框获取方法、系统、设备及存储介质。

背景技术

票据识别过程中,主要依赖OCR技术对票据图片上的文字进行识别,得到一个一个的文本块,并从中提取关键信息,如票号、出票日期、到期日期、出票人全称、收票人全称、承兑人名称、承兑人开户行行号、出票金额等。各机构签发的票据,需要包含的关键内容项是一致的,但格式会有所不同,这就给从图片上提取票据的关键信息增加了难度。

现有的票据识别方法,一般是通过正则表达式技术、文本块的相邻关系、结合表格的单元格关系等,设定提取规则,遍历图片上的每个文本块,对于符合规则的文本块,认为是要提取的关键信息。这种方法需要配置复杂的规则,同时提取的准确性,依赖于表格识别的准确性。例如,如现有的公开号为CN110427853A,名称为一种智能票据信息提取处理的方法的专利,该专利的技术方案是先对票据图片进行预处理(裁剪取内容区域),再对票据进行分类,对不同的票据类型设定不同的提取规则进行关键信息提取,该专利的技术方案与上述方法类似,也是需要设定复杂的提取规则。可见,这种提取规则的设定,需要人工进行规则总结,工作量较大,且需要适配大量的样本才能总结出一套完善的提取规则,最终会使得这套提取规则过于复杂,难以维护,且容易出现规则冲突的情况(如增加了一个新的规则,导致旧的规则失效等)。

发明内容

本申请实施例通过提供一种票据信息文本框获取方法、系统、设备及存储介质,旨在解决现有的票据识别方法中的提取规则过于复杂,难以维护,且容易出现规则冲突的问题。

本申请实施例提供了一种票据信息文本框获取方法,所述票据信息文本框获取方法,包括:

获取待识别票据图片,并识别所述待识别票据图片中包含的所有文本框;

提取所有文本框中每个文本框的文本框特征;

根据每个所述文本框的文本框特征,采用预设检测模型判断每个所述文本框作为目标文本框的预测概率值;所述预设检测模型包括多个不同类型的分类模型;

将预测概率值最大的文本框确定为对应类型的目标文本框。

在一实施例中,所述获取待识别票据图片,包括:

获取原始票据图片;

对所述原始票据图片进行预处理,得到所述待识别票据图片。

在一实施例中,所述识别所述待识别票据图片中包含的所有文本框,包括:

获取所述待识别票据图片中每一文本信息所对应的矩形区域的四个顶点坐标,将四个所述顶点坐标按照预设顺序进行连接,得到与每一所述文本信息对应的文本框。

在一实施例中,所述提取所有文本框中每个文本框的文本框特征,包括:

获取所有文本框中每个文本框的第一文本框特征以及与每个所述文本框相邻的文本框的第二文本框特征;

将所述第一文本框特征和所述与每个所述文本框相邻的文本框的第二文本框特征共同作为所述文本框特征。

在一实施例中,所述根据每个所述文本框的文本框特征,采用预设检测模型判断每个所述文本框作为目标文本框的预测概率值之前,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盈科票据服务(深圳)有限公司,未经盈科票据服务(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011471091.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top