[发明专利]一种从PDF文档中提取表格信息的方法及系统在审

申请号：	202110751861.3	申请日：	2021-07-02
公开（公告）号：	CN113673306A	公开（公告）日：	2021-11-19
发明（设计）人：	杨春明;谢明旭;张晖	申请（专利权）人：	西南科技大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34
代理公司：	成都九鼎天元知识产权代理有限公司 51214	代理人：	吴彦峰
地址：	621000 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 pdf 文档提取表格信息方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种从PDF文档中提取表格信息的方法及系统，该方法包括以下步骤：S1，截取PDF格式文档中的表格部分的图像，生成为新PDF文档，为新PDF文档添加可直接修改的文字层；S2，分析新PDF文档中的表格图片，识别出表格图片中被隐藏的内部框线，划线补充内部框线，得到具有完整框线的表格图片；S3，识别拥有完整框线的表格图片，获取表格文字信息的同时保留表格图片的完整框线，将表格图片中的文字信息和框线信息转为电子表格文件。本发明解决了现有技术存在的提取不具有完整框线的PDF文档或表格图片时准确度差、鲁棒性欠缺，如果中途出现提取错误无法从中间步骤快速干预修复等问题。

技术领域

本发明涉及办公文档信息处理技术领域，具体是一种从PDF文档中提取表格信息的方法及系统。

背景技术

大多数人日常办公处理的文件，表格和文档采用较多，其中表格的重要性毋庸置疑。在各行各业的桌面办公场景中，Excel和WPS是电子表格的事实标准。我们经常遇到这种需求：将一个表格图片的内容导入Excel。以前我们只能对着图片把内容完全人工输入到Excel表格文件中，既低效又容易出错。

近年来，在深度学习的加持下，OCR(Optical Character Recognition，光学字符识别)技术的可用性不断提升，大多数人直接借助OCR软件，从图片中自动提取文本信息。然而对于图片为表格的场景，只是提取文本依然不够，用户还需反复手动复制粘贴以还原出电子表格，这依然耗费大量时间。目前，表格图片的文字识别主要有以下两个思路以及相应的问题：

1、目前在无文字层PDF文本信息提取领域中，其中关于表格数据提取的方法，常用有监督的深度学习算法模型进行端到端的处理，如深度图像分割，边缘检测，纹理提取等方法。较为传统的则是录用OCR(光学识别技术)，根据文本框的空间排布信息推导表格结构；运用图像形态学变换、纹理提取、边缘检测等手段，提取表格线，再由表格线推导行、列、合并单元格的信息；依赖传统图像处理算法，在鲁棒性方面较欠缺，并且对不具有完整框线的PDF文档或表格图片(如缺乏可见线的表格，比较常见的一种类型是高考填报志愿时的以往年份“高校的各个专业的录取信息的表格”)，传统方法很吃力，很难把所有行/列间隙提取出来；

2、神经网络端到端学习，代表工作是TableBank，使用image to text技术，将表格图片转为某种结构化描述语言(比如html定义表格结构的标签)。但本解决方案没有次第，如果中途出现提取错误，无法从中间步骤快速干预修复，只能重新调整模型，看似省事，实则不适合工程落地。

发明内容

为克服现有技术的不足，本发明提供了一种从PDF文档中提取表格信息的方法及系统，解决现有技术存在的提取不具有完整框线的PDF文档或表格图片时准确度差、鲁棒性欠缺，如果中途出现提取错误无法从中间步骤快速干预修复等问题。

本发明解决上述问题所采用的技术方案是：

一种从PDF文档中提取表格信息的方法，包括以下步骤：

S1，截取PDF格式文档中的表格部分的图像，生成为新PDF文档，为新PDF文档添加可直接修改的文字层；

S2，分析新PDF文档中的表格图片，识别出表格图片中被隐藏的内部框线，划线补充内部框线，得到具有完整框线的表格图片；

S3，识别拥有完整框线的表格图片，获取表格文字信息的同时保留表格图片的完整框线，将表格图片中的文字信息和框线信息转为电子表格文件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西南科技大学，未经西南科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110751861.3/2.html，转载请声明来源钻瓜专利网。