[发明专利]PDF文档的解析方法、装置、电子设备及存储介质在审
申请号: | 202111082611.1 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113850265A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 赵亮 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 黄玉霞 |
地址: | 518066 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | pdf 文档 解析 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种PDF文档的解析方法、装置、电子设备及存储介质,该方法包括:根据PDF文档获取页面对象;根据页面对象中直线元素的端点坐标确定横坐标集合和纵坐标集合;根据页面对象中字符元素的坐标确定字符串;根据字符串的坐标和横坐标集合确定字符串的列标识;根据字符串的坐标和纵坐标集合确定字符串的行标识;根据行标识和列标识绘制电子表格。能够准确的确定字符串在电子表格中所在的行标识。根据行标识和列标识准确的将PDF中表格内的字符串提取到电子表格中,提高PDF中表格的解析效率。
技术领域
本发明实施例涉及数据处理技术,尤其是PDF文档的人工智能解析技术,尤其涉及一种PDF文档的解析方法、装置、电子设备及存储介质。
背景技术
可携带文档格式(Portable Document Format,PDF),是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF格式的核心,包含了一系列描述如何在页面上进行绘制的指令流。其中的文本数据并非是以段落或文字的形式进行存储,而是以记录了页面特定位置信息的字符的形式进行存储。
在实际使用中,需要将PDF中的图像指令转换为电子表格等电子文档。目前使用基于pgthon的开源pdf解析工具(如pdfplumber、py2pdf或pdfminer等)进行PDF文档的解析。然而解析工具只能提取PDF中格式完整的表格,若表格中存在没有绘制的表格线等情况,则无法准确的对PDF文档进行解析。
发明内容
本发明提供一种PDF文档的解析方法、装置、电子设备及存储介质,以实现提高PDF文档的解析效率。
第一方面,本发明实施例提供了一种PDF文档的解析方法,包括:
根据PDF文档获取页面对象;
根据页面对象中直线元素的端点坐标确定横坐标集合和纵坐标集合;
根据页面对象中字符元素的坐标确定字符串;
根据字符串的坐标和横坐标集合确定字符串的列标识;
根据字符串的坐标和纵坐标集合确定字符串的行标识;
根据行标识和列标识绘制电子表格。
第二方面,本发明实施例还提供了一种PDF文档的解析装置,包括:
页面对象获取模块,用于根据PDF文档获取页面对象;
坐标集合确定模块,用于根据页面对象中直线元素的端点坐标确定横坐标集合和纵坐标集合;
字符串确定模块,用于根据页面对象中字符元素的坐标确定字符串;
列标识确定模块,用于根据字符串的坐标和横坐标集合确定字符串的列标识;
行标识确定模块,用于根据字符串的坐标和纵坐标集合确定字符串的行标识;
绘制模块,用于根据行标识和列标识绘制电子表格。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时实现如本申请实施例所示的PDF文档的解析方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行如本申请实施例所示的PDF文档的解析方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111082611.1/2.html,转载请声明来源钻瓜专利网。