[发明专利]一种PDF文档中的表格抽取方法、装置、设备及介质在审
申请号: | 201911082095.5 | 申请日: | 2019-11-07 |
公开(公告)号: | CN110795919A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 陈宇;陈运文;王江;朱耀邦;钱亦欣;纪达麒 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F40/177 | 分类号: | G06F40/177 |
代理公司: | 11332 北京品源专利代理有限公司 | 代理人: | 孟金喆 |
地址: | 201203 上海市浦东新区中国(上海)自*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据集 标注 匹配 结构化数据 目标表格 抽取 表格识别 字段单元 集合 可编辑文档 表格抽取 表格内容 技术效果 业务逻辑 单元格 写入 | ||
1.一种PDF文档中的表格抽取方法,其特征在于,包括:
在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据;
将所述至少一个表格的结构化数据分别与待抽取表格内容对应的标注数据集进行匹配,确定与所述标注数据集匹配的目标表格;
在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合;
将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中。
2.根据权利要求1所述的方法,其特征在于,在包括有至少一个表格的PDF文档中,提取与所述至少一个表格的内容对应的结构化数据之前,包括:
采用PDF文档解析工具,对所述PDF文档中包含的内容进行解析,生成PDF区块信息;
其中,所述PDF区块信息包括:文本信息和/或线条信息;所述文本信息或者所述线条信息中包括位置信息;
将文本信息解析为由单字信息构成的序列,所述单字信息中包括位置信息;
根据所述单字信息和/或所述线条信息,确定表格区域位置信息;
根据所述表格区域位置信息,获取落入表格区域内的单字信息,还原得到所述PDF文档中的至少一个表格。
3.根据权利要求2所述的方法,其特征在于,根据所述单字信息和/或所述线条信息,确定表格区域位置信息,包括:
如果根据所述线条信息确定所述PDF文档中存在有线框表格,则通过膨胀腐蚀算法,对所述线条信息进行合并处理,得到所述有线框表格,并获取与所述有线框表格对应的表格区域位置信息;
如果根据所述单字信息解析得到的对齐信息确定存在无线框表格,则根据所述对齐信息,得到所述无线框表格,并获取与所述无线框表格对应的表格区域位置信息。
4.根据权利要求1所述的方法,其特征在于,在所述目标表格中,识别出与所述标注数据集匹配的目标字段单元格集合,包括下述至少一项:
根据所述目标表格中包含的单元格与所述标注数据集中包含的目标字段的相似度,得到与所述目标字段相对应的所述目标字段单元格集合;
根据预先训练的分类模型对所述目标表格中包含的单元格进行分类处理,得到与所述目标字段相对应的所述目标字段单元格集合;
根据预先获取的脚本规则,从所述目标表格中包含的全部单元格中提取与所述目标字段匹配的至少一个单元格,得到与所述目标字段相对应的所述目标字段单元格集合。
5.根据权利要求1所述的方法,其特征在于,将所述目标表格中的所述目标字段单元格集合中的内容,写入至可编辑文档中,包括:
通过软件流程自动化RPA技术,将所述目标字段单元格集合中包含的全部目标字段单元格录入到所述可编辑文档中。
6.根据权利要求4所述的方法,其特征在于,所述根据所述目标表格中包含的单元格与所述标注数据集中包含的目标字段的相似度,得到与所述目标字段相对应的所述目标字段单元格集合,包括:
依次计算所述目标表格中包含的全部单元格与所述目标字段的相似度;
若当前单元格与所述目标字段的相似度大于预设相似度阈值时,将当前单元格加入至所述目标字段单元格集合。
7.根据权利要求4所述的方法,其特征在于,所述根据预先训练的分类模型对所述目标表格中包含的单元格进行分类处理,得到与所述目标字段相对应的所述目标字段单元格集合,包括:
通过支持向量机SVM分类器,依次判断所述目标表格中包含的全部单元格是否与所述目标字段匹配,并根据判断结果,将所述目标表格中包含的单元格分为匹配单元格和不匹配单元格;
将所述匹配单元格加入至所述目标字段单元格集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911082095.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:确定阅读位置的方法、装置及设备
- 下一篇:一种文档生成方法及设备