[发明专利]一种PDF文档中的表格抽取方法、装置、设备及介质在审
申请号: | 201911082095.5 | 申请日: | 2019-11-07 |
公开(公告)号: | CN110795919A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 陈宇;陈运文;王江;朱耀邦;钱亦欣;纪达麒 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F40/177 | 分类号: | G06F40/177 |
代理公司: | 11332 北京品源专利代理有限公司 | 代理人: | 孟金喆 |
地址: | 201203 上海市浦东新区中国(上海)自*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据集 标注 匹配 结构化数据 目标表格 抽取 表格识别 字段单元 集合 可编辑文档 表格抽取 表格内容 技术效果 业务逻辑 单元格 写入 | ||
本发明实施例公开了一种PDF表格识别和抽取方法、装置、设备及介质。其中,PDF表格识别和抽取方法包括:在包括有至少一个表格的PDF文档中,提取与至少一个表格的内容对应的结构化数据;将至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与标注数据集匹配的目标表格;在目标表格中,识别出与标注数据集匹配的目标字段单元格集合;将目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。本发明实施例的技术方案通过将PDF文档中的表格对应的结构化数据与标注数据集进行匹配,实现了从表格中抽取特定单元格的技术效果,无需根据具体业务编写特定业务逻辑,提高了PDF文档中的表格抽取的通用性。
技术领域
本发明实施例涉及数字图像处理技术,尤其涉及一种PDF文档中的表格抽取方法、装置、设备及介质。
背景技术
PDF(Portable Document Format,便携式文档格式)文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,其具有跨平台、高集成度和高安全性等优点,因而越来越多的电子图书、产品说明、公司文告以及网络资料开始使用PDF格式文件。
随着PDF格式文档的广泛应用,越来越多的文档需要转化为PDF格式进行传输以及阅读,例如,债券募集书、招股说明书等,而且在很多情况下,我们需要从这些文档中包含的表格内提取重要数据信息进行统计和分析等,显然,从PDF格式文档中不能方便的将数据信息转化成可读写的信息。
并且,现有技术中,还没有特定的工具能够进行表格中单元格的抽取,当我们需要对PDF文档中表格的部分单元格进行抽取时,通常都需要根据具体业务场景去编写一些特定的业务逻辑,不具有通用性。
发明内容
本发明实施例提供一种PDF文档中的表格抽取方法、装置、设备及介质,以从PDF文档包含的表格中抽取需要的数据信息。
第一方面,本发明实施例提供了一种PDF文档中的表格抽取方法,所述方法包括:
在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据;
将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格;
在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合;
将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。
第二方面,本发明实施例还提供了一种PDF文档中的表格抽取装置,所述装置包括:
结构化数据提取模块,用于在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据;
目标表格确定模块,用于将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格;
目标字段单元格获取模块,用于在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合;
文档写入模块,用于将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。
第三方面,本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例提供的PDF文档中的表格抽取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911082095.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:确定阅读位置的方法、装置及设备
- 下一篇:一种文档生成方法及设备