[发明专利]表格识别方法、装置及电子设备在审

专利信息
申请号: 202210345789.9 申请日: 2022-03-31
公开(公告)号: CN114782968A 公开(公告)日: 2022-07-22
发明(设计)人: 赵永森 申请(专利权)人: 上海云从企业发展有限公司
主分类号: G06V30/412 分类号: G06V30/412;G06V10/774;G06V10/82;G06K9/62;G06N3/08
代理公司: 北京瀚仁知识产权代理事务所(普通合伙) 11482 代理人: 陈敏;屠晓旭
地址: 201203 上海市宝山区中国(上海)自*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 表格 识别 方法 装置 电子设备
【说明书】:

发明涉及图像处理技术领域,具体提供一种表格识别方法、装置及电子设备,旨在解决现有方法无法对表格进行精准识别导致表格识别结果准确度较低的技术问题。为此目的,本发明的表格识别方法包括下述步骤:获取表格线训练图像样本;利用表格线训练图像样本对表格线检测模型进行训练;基于训练的表格线检测模型获取待识别表格图像中的表格线前景图;对表格线前景图进行预处理,得到当前表格结构;基于文本识别模型获取待识别表格图像中的文本内容以及文本内容对应的文本坐标;按照文本坐标将文本内容存储至所述当前表格结构的单元格中,以得到识别后的表格。如此,提高了干扰场景下表格识别的稳定性和准确率。

技术领域

本发明涉及图像处理技术领域,具体提供一种表格识别方法、装置及电子设备。

背景技术

目前,随着数字化的普及,越来越多的信息都以电子化文档的形式储存以及使用,而文档中的表格往往包含着一些更加丰富和关键的信息,比如财务报表、行政表单等。手动从这些文档中提取相关信息是一件非常耗时耗力的工作,因此,研究如何自动化地从图像或者文档中提取表格结构化信息的通用表格识别技术可以大大解放人力,具有广阔的应用前景。

然而,在实际的应用场景中,表格识别算法的输入往往呈现出不同版式,还会不可避免地存在各种各样的干扰,比如加盖在表格上的印章、由于翻拍或者扫描带来的噪声线、由于拍摄角度带来的图像扭曲等,这些问题往往会导致表格结构识别的错误以及表格识别结果准确度较低等。

相应地,本领域需要一种新的表格识别方案来解决上述问题。

发明内容

为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决现有方法无法对表格进行精准识别导致表格识别结果准确度较低的技术问题。本发明提供了一种表格识别方法、装置及电子设备。

在第一方面,本发明提供一种表格识别方法,包括下述步骤:获取表格线训练图像样本;利用所述表格线训练图像样本对表格线检测模型进行训练;基于训练的表格线检测模型获取待识别表格图像中的表格线前景图;对所述表格线前景图进行预处理,得到当前表格结构;基于文本识别模型获取所述待识别表格图像中的文本内容以及所述文本内容对应的文本坐标;按照所述文本坐标将所述文本内容存储至所述当前表格结构的单元格中,以得到识别后的表格。

在一个实施方式中,获取表格线训练图像样本包括获取包含印章数据的表格线训练图像、弯曲表格线训练图像、含有背景纹理干扰的表格线训练图像以及文本内容贴近表格线的训练图像;所述获取包含印章数据的表格线训练图像包括:基于包含印章数据的原始图像获取掩膜图像;调整包含印章数据的所述原始图像中印章像素值至预设像素值;从调整印章像素值的所述原始图像中获取包含印章的一个随机区域;将所述随机区域与所述掩膜图像进行融合,得到包含印章数据的表格线训练图像。

在一个实施方式中,利用所述表格线训练图像样本对表格线检测模型进行训练包括:基于所述表格线训练图像样本以及对应的表格线前景标签图计算损失值,所述损失值的计算公式为:

上式中,n为表格线训练图像的数量,n=1,2,…,N;h和w分别为表格线训练图像样本的高度和宽度,h=1,2,…,H,w=1,2,…,W;α为根据第n个表格线训练图像样本对应的表格线前景标签图确定出的在第n表格线训练图像样本中位置(h,w)处的标签值,为表格线检测模型输出的在第n表格线训练图像样本中位置(h,w)处的标签预测值,γ为聚集参数;判断所述损失值是否满足预设条件,在所述损失值不满足预设条件的情况下,基于梯度下降方法调节所述表格线检测模型中的权重参数,直至基于调整权重参数后获得的损失值满足预设条件时,完成模型训练。

在一个实施方式中,对所述表格线前景图进行预处理,得到当前表格结构包括:基于所述表格线前景图提取横向轮廓线和竖向轮廓线;获取所述横向轮廓线和竖向轮廓线的交叉点;基于表格区域检测模型获取待识别表格图像的区域坐标;基于所述区域坐标筛选位于所述表格区域内的交叉点;基于筛选后的位于所述表格区域内的交叉点获得当前表格结构。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云从企业发展有限公司,未经上海云从企业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210345789.9/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top