[发明专利]一种基于区域识别与分割的PDF表格数据解析方法有效
申请号: | 201710760650.X | 申请日: | 2017-08-30 |
公开(公告)号: | CN107622230B | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 刘晓伟;刘张宇;薛云志 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
代理公司: | 11251 北京科迪生专利代理有限责任公司 | 代理人: | 安丽<国际申请>=<国际公布>=<进入国 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于区域识别与分割的PDF表格数据解析方法,定位PDF文档中要解析的指定页面,并将指定页面转换为灰阶图像文件;解析灰阶图像文件,获取其中的数据部分并保存到二维数组中;针对所得到的二维数组,通过表格分割线扫描算法,进行表格区域的识别和不同表格区域的分割;进行表格区域的识别和不同表格区域的分割后,依次对各个表格进行解析,在解析时,根据表格样式的不同,将表格分为非复杂结构的表格和复杂结构的表格进行处理,从而得到解析结果,能够提高复杂表格数据解析的准确率;将所得到的解析后的表格数据按照需要的文件格式进行存储。本发明是一种能够快速、准确地从PDF文档中提取所需要的表格数据的方法。 | ||
搜索关键词: | 一种 基于 区域 识别 分割 pdf 表格 数据 解析 方法 | ||
【主权项】:
1.一种基于区域识别与分割的PDF表格数据解析方法,其特征在于,步骤如下:/n第一步,定位PDF文档中要解析的指定页面,并将指定页面转换为灰阶图像文件;/n第二步,解析转换得到的灰阶图像文件,获取其中的数据部分并保存到二维数组中;/n第三步,针对所得到的二维数组,通过表格分割线扫描算法,进行表格区域的识别和不同表格区域的分割,所述表格分割线扫描算法采用PDF文档中表格、单元格区域识别方法和区域分割方法相结合的方法;/n第四步,进行表格区域的识别和不同表格区域的分割后,依次对各个表格进行解析,在解析时,根据表格样式的不同,将表格分为非复杂结构的表格和复杂结构的表格进行处理,从而得到解析结果,能够提高复杂表格数据解析的准确率;所述非复杂结构的表格是指表格规整、分割线对齐,所述复杂结构的表格是指表格中的分割线交错复杂、多条分割线不对齐,包括跨行单元格、跨列单元格、跨行跨列单元格,以及同一行或同一列中存在多个跨行和跨列的单元格情况;/n第五步,将所得到的解析后的表格数据按照需要的文件格式进行存储;/n所述第三步中,所述表格分割线扫描算法具体实现如下:标记连续位置上值相同的元素,并通过表格分割线线长阈值进行过滤,识别出表格的边框和单元格分割线;通过判断两条相邻的表格边框线中间是否存在至少一条贯穿的垂直分割线来判断两条边框线是否处于同一个表格区域中:若两条相邻的表格边框线中间不存在贯穿的垂直分割线,则说明所判断的两条相邻的表格边框线分别属于不同的表格区域;识别出不同的表格区域后,将同一页面内的不同表格按照区域进行分割,得到各个表格的起始和终止位置坐标;/n所述第四步中,对于复杂结构的表格处理步骤为:/n(1)将表格按行进行切割,然后依次处理每个行表格;/n(2)针对第二步得到的二维数组,通过表格分割线扫描算法,识别出各个行表格中不同的单元格区域;/n(3)对识别出的各个单元格区域中的文字数据进行定位和解析;/n(4)将所有的行表格数据合并到一个完整的表格中,从而得到整个表格的数据。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710760650.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种移动式渔网裁剪装置
- 下一篇:一种蛇形管切割绕线装置