[发明专利]基于PDF文件的表格提取方法和装置有效
申请号: | 201510083646.5 | 申请日: | 2015-02-16 |
公开(公告)号: | CN105988979B | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 闫丹凤;钱直儒;唐皓瑾;侯宾;王家鑫 | 申请(专利权)人: | 北京邮电大学;北京中软万维网络技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 马爽;黄健 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于PDF文件的表格提取方法和装置,通过解析获得PDF文件中的各文字的文字信息和各线条的线条信息之后,根据线条位置信息对从该PDF文件的同一页中所提取的横向线条进行排序,并判断两相邻横向线条是否处于该页的同一表格中,根据线条信息对处于该页的同一表格中的各横向线条进行表格绘制,以及在绘制的表格中,根据线条信息对从所述页中所提取的各纵向线条进行填充,最后在绘制的表格中,根据各文字的文字信息,将文字信息中的文字字符信息填充在横向线条和纵向线条所构成的单元格中与文字位置信息相对应的位置。由于考虑了表格的横向线条和纵向线条的信息,从而提高了从PDF文件中提取表格的准确度。 | ||
搜索关键词: | 基于 pdf 文件 表格 提取 方法 装置 | ||
【主权项】:
1.一种基于PDF文件的表格提取方法,其特征在于,包括:对PDF文件进行解析,获得所述PDF文件中的各文字的文字信息和各线条的线条信息;所述文字信息包括文字字符信息和文字位置信息;所述线条信息包括线条位置信息、线条宽度和线条长度;所述线条位置信息包括线条横轴位置和线条纵轴位置;根据所述线条信息中的线条宽度和线条长度,从各线条中确定横向线条和纵向线条;根据所述线条位置信息,对从所述PDF文件的同一页中所提取的横向线条进行排序;针对在所述页中排序后获得的两相邻横向线条,在从所述页中所提取的各纵向线条中,确定满足线条位置信息中线条纵轴位置与所述两相邻横向线条中最小线条纵轴位置相同的目标纵向线条;根据所述两相邻横向线条的线条纵轴位置之差和所述目标纵向线条的线条纵轴位置,判断所述两相邻横向线条是否处于所述页的同一表格中;根据线条信息对处于所述页的所述表格中的各横向线条进行表格绘制,以及在绘制的表格中,根据线条信息对从所述页中所提取的各纵向线条进行填充;在所述绘制的表格中,根据各文字的文字信息,将文字信息中的文字字符信息填充在横向线条和纵向线条所构成的单元格中与文字位置信息相对应的位置;所述根据所述两相邻横向线条的线条纵轴位置之差和所述目标纵向线条的线条纵轴位置,判断所述两相邻横向线条是否处于所述页的同一表格中,包括:计算所述两相邻横向线条的线条纵轴位置之差(y1‑y0);其中,y1为所述两相邻横向线条中最大线条纵轴位置,y0所述两相邻横向线条中最小线条纵轴位置;根据公式|y1‑y0‑h0|进行计算,若满足|y1‑y0‑h0|<△h,则确定所述两相邻横向线条处于所述页的同一表格中,其中,h0为所述目标纵向线条的线条纵轴位置,△h为预设偏差阈值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;北京中软万维网络技术有限公司,未经北京邮电大学;北京中软万维网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510083646.5/,转载请声明来源钻瓜专利网。
- 上一篇:电话自助点餐下单机
- 下一篇:一种被动式植入广告系统