[发明专利]一种表格结构提取方法及系统有效
申请号: | 201910353932.7 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110162757B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 李超;刘国翌;张家栋 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/18 | 分类号: | G06F40/18;G06V20/62;G06V30/414;G06N3/0464;G06V10/82;G06N3/08;G06V30/19 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 结构 提取 方法 系统 | ||
本发明公开了一种表格结构提取方法及系统,其中所述方法包括将表格图片输入预先训练的神经网络模型,得到输出的对应的图片标注;对所述图片标注进行处理,获得对应的表格结构。应用本发明所述方案,能够进行自动化的表格结构提取,节约大量的人力成本;同时对表格图片的旋转、模糊以及表格图片中的噪声不敏感,具有广泛的适用性。
【技术领域】
本发明涉及计算机应用技术,特别涉及表格结构提取方法及系统。
【背景技术】
表格是由行与列构成的一种组织、整理数据的有效手段,其清晰、可视化的交流模式,使其在数据分析、科学研究甚至大众的生活中被广泛使用。而表格的存在形式主要有计算机电子表格、纸质印刷表格两种,由于其不同的应用场景,经常会有在两种方式间转换的需求。电子表格到纸质表格通过打印即可,而纸质印刷表格到电子表格通常有两种方式:1.按照表格的样式,进行人工录入计算机;2.扫描、拍照成图片,然后在计算机上对扫描、拍照获取的图片进行表格提取。在纸质印刷表格到电子表格的转换过程中,人工录入的工作量较大、成本较高,而通过计算机处理又对扫描、拍照的要求较高,表格倾斜、旋转、模糊都会限制对表格的提取。
【发明内容】
本申请的多个方面提供了表格结构提取方法、系统、设备及存储介质,能够进行自动化的表格结构提取。
本申请的一方面,提供一种表格结构提取方法,包括:将表格图片输入预先训练的神经网络模型,得到输出的对应的图片标注;
对所述图片标注进行处理,获得对应的表格结构。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,将表格图片输入预先训练的神经网络模型之前,所述方法还包括,对所述表格图片进行预处理,增强表格结构部分。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述神经网络模型是通过以下步骤训练得到的:对数据集中的表格图片进行人工标注,得到对应的文本标注;将所述文本标注转换为图片标注;将带有图片标注的表格图片作为预设神经网络模型的输入,得到预测的图片标注;根据所述图片标注与所述预测输出的欧氏距离作为损失函数;通过回归训练更新所述预设神经网络模型直到满足预设训练条件。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述神经网络模型为全卷积神经网络模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述更新所述预设神经网络模型直到满足预设训练条件包括:通过所述图片标注与所述预测输出的欧氏距离,来更新预设神经网络模型中的参数;
重复训练直到网络参数收敛或到达最大迭代次数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述文本标注为使用所述表格图片中的直线的端点坐标进行的标注。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将所述文本标注转换为图片标注包括:根据所述文本标注,生成对应表格图片中的竖线、横线、交点的三个图片作为图片标注。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将所述文本标注转换为图片标注之后还包括:利用随机生成的仿射矩阵,进行表格图片、对应的图片标注的相同位置进行裁剪,将裁剪得到的表格图片、对应的图片标注加入数据集。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对所述图片标签进行处理,获得对应的表格结构包括:对所述对应表格图片中的竖线、横线、交点的三个图片标注进行图像处理,获取对应的坐标信息,生成对应的表格结构。
本发明的另一方面,提供一种表格结构提取系统,包括:
图片标注获取模块,用于将表格图片输入预先训练的神经网络模型,得到输出的对应的图片标注;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910353932.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动修正文本信息的方法和系统
- 下一篇:在线文档插入信息方法及装置