[发明专利]一种表格结构提取方法及系统有效

专利信息
申请号: 201910353932.7 申请日: 2019-04-29
公开(公告)号: CN110162757B 公开(公告)日: 2023-08-18
发明(设计)人: 李超;刘国翌;张家栋 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F40/18 分类号: G06F40/18;G06V20/62;G06V30/414;G06N3/0464;G06V10/82;G06N3/08;G06V30/19
代理公司: 北京鸿德海业知识产权代理有限公司 11412 代理人: 田宏宾
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 表格 结构 提取 方法 系统
【说明书】:

发明公开了一种表格结构提取方法及系统,其中所述方法包括将表格图片输入预先训练的神经网络模型,得到输出的对应的图片标注;对所述图片标注进行处理,获得对应的表格结构。应用本发明所述方案,能够进行自动化的表格结构提取,节约大量的人力成本;同时对表格图片的旋转、模糊以及表格图片中的噪声不敏感,具有广泛的适用性。

【技术领域】

本发明涉及计算机应用技术,特别涉及表格结构提取方法及系统。

【背景技术】

表格是由行与列构成的一种组织、整理数据的有效手段,其清晰、可视化的交流模式,使其在数据分析、科学研究甚至大众的生活中被广泛使用。而表格的存在形式主要有计算机电子表格、纸质印刷表格两种,由于其不同的应用场景,经常会有在两种方式间转换的需求。电子表格到纸质表格通过打印即可,而纸质印刷表格到电子表格通常有两种方式:1.按照表格的样式,进行人工录入计算机;2.扫描、拍照成图片,然后在计算机上对扫描、拍照获取的图片进行表格提取。在纸质印刷表格到电子表格的转换过程中,人工录入的工作量较大、成本较高,而通过计算机处理又对扫描、拍照的要求较高,表格倾斜、旋转、模糊都会限制对表格的提取。

【发明内容】

本申请的多个方面提供了表格结构提取方法、系统、设备及存储介质,能够进行自动化的表格结构提取。

本申请的一方面,提供一种表格结构提取方法,包括:将表格图片输入预先训练的神经网络模型,得到输出的对应的图片标注;

对所述图片标注进行处理,获得对应的表格结构。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,将表格图片输入预先训练的神经网络模型之前,所述方法还包括,对所述表格图片进行预处理,增强表格结构部分。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述神经网络模型是通过以下步骤训练得到的:对数据集中的表格图片进行人工标注,得到对应的文本标注;将所述文本标注转换为图片标注;将带有图片标注的表格图片作为预设神经网络模型的输入,得到预测的图片标注;根据所述图片标注与所述预测输出的欧氏距离作为损失函数;通过回归训练更新所述预设神经网络模型直到满足预设训练条件。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述神经网络模型为全卷积神经网络模型。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述更新所述预设神经网络模型直到满足预设训练条件包括:通过所述图片标注与所述预测输出的欧氏距离,来更新预设神经网络模型中的参数;

重复训练直到网络参数收敛或到达最大迭代次数。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述文本标注为使用所述表格图片中的直线的端点坐标进行的标注。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将所述文本标注转换为图片标注包括:根据所述文本标注,生成对应表格图片中的竖线、横线、交点的三个图片作为图片标注。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将所述文本标注转换为图片标注之后还包括:利用随机生成的仿射矩阵,进行表格图片、对应的图片标注的相同位置进行裁剪,将裁剪得到的表格图片、对应的图片标注加入数据集。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对所述图片标签进行处理,获得对应的表格结构包括:对所述对应表格图片中的竖线、横线、交点的三个图片标注进行图像处理,获取对应的坐标信息,生成对应的表格结构。

本发明的另一方面,提供一种表格结构提取系统,包括:

图片标注获取模块,用于将表格图片输入预先训练的神经网络模型,得到输出的对应的图片标注;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910353932.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top