[发明专利]一种PDF文件的对象识别处理方法及装置有效
申请号: | 201910549537.6 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110363102B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 罗彤;周占文;曹德亮;赵红军 | 申请(专利权)人: | 北京融汇金信信息技术有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/413;G06V30/10 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗晓静 |
地址: | 100036 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 文件 对象 识别 处理 方法 装置 | ||
本发明实施例公开了一种PDF文件的对象识别处理方法及装置,方法包括:将PDF文件的当前页面转换为待识别图像并进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;识别背景图像中的表格和图片,并根据识别到的表格和图片对背景图像进行自动化标记,得到标记图像;将标记图像输入训练好的深度学习模型中,得到深度学习模型输出的带有对象识别结果的识别图像。通过对待识别图像进行灰度转换处理、二值化处理和闭合处理,进行图像背景的识别;通过预设规则识别背景图像中的表格和图片并进行标记,最后通过训练好的深度学习模型输出的带有对象识别结果的识别图像,不仅快速简单、节约了大量人工标注的人力成本,而且识别准确率高。
技术领域
本发明涉及计算机技术领域,具体涉及一种PDF文件的对象识别处理方法及装置。
背景技术
PDF(Portable Document Format,便携式文档格式)是一种独立于硬件、操作系统和应用程序的电子文档格式。由于其具有跨平台、多媒体集成、安全等优点,PDF已成为目前使用最为广泛的电子文档格式之一。随着PDF格式文档的应用越来越广泛,大量有价值的数据均以PDF文件的形式进行呈现。因此,如何从PDF文件中提取所需数据,尤其是结构化、半结构化的表格数据和图片,是一个被广泛关注和研究的问题。
现有的PDF表格识别工具采用先将PDF文件转换为一种中间格式的文档(如HTML(Hyper Text Markup Language,超文本标记语言)、XML(Extensible Markup Language,可扩展标记语言)、DOC(Document,文档)等),然后再从这种中间格式的文档中提取出所需要的数据。该方法不仅多引入了一次转换到中间文件的操作,而且转换得到的中间文件难以准确地保持数据在原有PDF文件中的位置和结构,因此不一定能得到准确的表格数据解析结果,从而难以进行后续的处理。
PDF格式的文档结构与HTML、XML等格式不同,PDF文件对表格没有特殊的定义,而只是线条与文字的位置组合,因此很难直接从PDF文件中提取出所需要的表格数据。也正是因为这一原因,虽然目前从PDF文件中识别表格的相关工具众多,然而成熟稳定、识别准确率高的工具却很少;同样地,现有工具对PDF文件的图片识别的准确率也较低。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种PDF文件的对象识别处理方法及装置。
第一方面,本发明实施例提出一种PDF文件的对象识别处理方法,包括:
将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;
根据第一预设规则识别所述背景图像中的表格,根据第二预设规则识别所述背景图像中的图片,并根据识别到的表格和图片对所述背景图像进行自动化标记,得到标记图像;
将所述标记图像输入训练好的深度学习模型中,得到所述深度学习模型输出的带有对象识别结果的识别图像;
其中,所述对象识别结果包括背景、图片、表格和文字。
可选地,所述根据第一预设规则识别所述背景图像中的表格,具体包括:
根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别,若识别到格线状对象,则确定所述格线状对象为表格;
其中,所述目标区域为所述背景图像中去除背景之后的区域。
可选地,所述根据第二预设规则识别所述背景图像中的图片,具体包括:
若判断所述目标区域的若干子区域之间相连,则分别获取所述若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置,根据所述横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置确定包围所述若干相连的子区域的最小区域,并确定所述最小区域对应的对象为图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京融汇金信信息技术有限公司,未经北京融汇金信信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910549537.6/2.html,转载请声明来源钻瓜专利网。