[发明专利]一种图像中的表格识别方法、装置、电子设备及存储介质有效

专利信息
申请号: 202010697220.X 申请日: 2020-07-20
公开(公告)号: CN111814722B 公开(公告)日: 2022-04-19
发明(设计)人: 孔垂鑫;王鉴宇;郑嘉文;李文;段立新 申请(专利权)人: 电子科技大学
主分类号: G06V30/413 分类号: G06V30/413;G06V30/146;G06V30/148;G06V30/19;G06K9/62;G06N3/04
代理公司: 北京正华智诚专利代理事务所(普通合伙) 11870 代理人: 李林合
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 图像 中的 表格 识别 方法 装置 电子设备 存储 介质
【说明书】:

发明提供了一种图像中的表格识别方法、装置、电子设备及存储介质,通过获取待识别的图像;基于深度学习和直线检测的级联矫正;基于深度学习的表格区域检测;从表格区域图像中检测出行列表格线,重建出表格结构;基于深度学习的文本识别模型对单元格内的文本进行识别;识别结果格式化输出。本发明通过以上设计,同时解决各种不同类型表格如全框线表格、部分框线表格、无框线表格等的识别问题,提高表格结构和内容的识别准确性。

技术领域

本发明属于图像识别技术,尤其涉及一种图像中的表格识别方法、装置、电子设备及存储介质。

背景技术

表格是文档中常见的内容形式,能够表示结构化的内容,因而蕴含大量的信息,在文档中具有重要的地位。纸质表格文档在生活中随处可见,在生活中的各种纸质文档中随处可见,如货品清单,信息收集表,等各类清单报表。随着纸质表格文档的大量增长,从文档中查找信息,核对信息的工作变得日益繁重,带来了巨大的人工成本,且人工从文档中读取数据出错率较高,因而利用计算机技术自动将表格文档数字化的需求变得越来越普遍。利用计算机将表格文档自动数字化具有如下优点:(1)能够减少人工查表成本,减轻工作负担,加快处理速度,提高经济效应。(2)一个性能优异的表格文档数字化系统能够减少人工录入带来的错误。(3)可以利用计算机对数字化的表格文档做更加深入的信息挖掘,获取更多的信息。目前对于表格重建这个问题,典型的方法如下:

基于检测格点的表格重建方法。首先对表格区域通过横线和竖线滤波器过滤出横线和竖线,然后定位出横竖线交叉点坐标即格点坐标,接着对格点类型进行分类,遍历全部格点,根据格点类型重建出表格结构。这类方法的缺点在于需要人工设置非常多的参数,且对参数变化较为敏感,如横竖线滤波器的长度,过大会漏掉一些表格线,过小会检测出大量错误线段。需要对不同类型的表格需要设置不同的参数,泛化性能不好。

基于模板匹配的表格重建方法。此类方法先通过设计一个模板图像,将输入图像和模板图像配准,然后基于模板图像的结构对输入图像进行识别。这类方法的缺点在于这类方法只使用于格式固定的表格如发票,身份证等,必须对每种表格单独设置模板,通用性较差,且该类方法的识别精度强烈依赖于图像配准的精度,而表格图像中图像的纹理相似性较高,图像配准会比较困难,对分辨率较高的图像配准时速度较慢。

现有的表格结构识别方法大多针对全框线表格,而无框线的表格处理更加困难,但无线表格也是表格中常见的形式。无线表格中没有可见的表格线,因而识别更加困难。对于无线表格的行列分割线提取,过去方法往往是对表格图像进行膨胀等处理,让文字加粗以在投影的时候分界线更加清晰,这类方法存在一些问题,比如说图像膨胀的参数设置很难控制,膨胀过大可能会导致不同行,不同列文本像素和图像中的线条像素、噪声像素粘连,导致分割效果差,膨胀过小会导致对像素在单方向投影之后投影序列峰值过多,误分割严重,例如表格中经常出现一列数据在小数点位置对齐的情况,这类方法易在小数点处错误分割。因此,此类方法往往行列分割效果差,且通用性差,实用价值较低。

发明内容

针对现有技术中的上述不足,本发明提供的一种图像中的表格识别方法、装置、电子设备及存储介质,同时解决各种不同类型表格如全框线表格、部分框线表格、无框线表格等的识别问题,提高表格结构和内容的识别准确性。

为了达到以上目的,本发明采用的技术方案为:

本方案提供一种图像中的表格识别方法,包括以下步骤:

S1、获取待识别的包含表格区域的图像;

S2、分别利用深度学习模型和直线检测方法对所述图像进行级联矫正;

S3、利用深度学习模型检测出经级联矫正后图像中的表格区域;

S4、从所述表格区域中检测出行列表格线,重建表格结构;

S5、分割所述表格结构中单元格内的文本,并利用文本识别模型对单元格内的文本进行识别;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010697220.X/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top