[发明专利]一种从PDF中提取图片的方法、系统及装置在审
申请号: | 201910223290.9 | 申请日: | 2019-03-22 |
公开(公告)号: | CN111724387A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 周睿;魏永强;周庆国;仝倩倩;张文强;魏文浩;于亮;陆笛;廖伟志;胡轶凛;冉竹君 | 申请(专利权)人: | 兰州大学 |
主分类号: | G06T7/11 | 分类号: | G06T7/11;G06T5/00;G06T5/30;G06T7/13 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 730000 甘肃省兰*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 提取 图片 方法 系统 装置 | ||
本发明公开了一种PDF中图片识别和提取的方法、系统及装置。本发明通过截取PDF文件为图片:对所述图片进行一系列预处理操作,获取其轮廓图并分析去噪后在图片上标注,依据所述标注对图片进行分割提取。发明基于PDF内容提取的不方便,采用图像处理和图像过滤的相结合的方法自动识别出各种图片并切割保存,大大降低了从PDF中获取图片数据的效率。
技术领域
本发明涉及一种PDF文件数字图像处理技术领域,尤其涉及一种从PDF中识别和分割图片的数字图像处理技术。
背景技术
PDF(Portable Document Format,便携式文档格式)是一种独立于硬件、操作系统、应用程序的电子文档格式。由于其具有跨平台、多媒体集成、安全等优点,PDF已成为目前使用最为广泛的电子文档格式之一。随着PDF格式文档的广泛使用,大量有价值的数据均以PDF文档的形式呈现出来。因此,如何从PDF文档中提取数据,是一个被广泛关注和研究的问题。
大量珍贵的古代文献以及早期的纸质书籍文献从线下被搬到了线上,这其中有很大部分是采用扫描书本文献的方式完成了纸质书籍的电子化。现在以图识字的技术已经很成熟了,将扫描版的书籍中的文字识别并提取出来轻而易举,然而将扫描版书籍中的图片识别并提取出来的问题却一直没有很好的解决方案,所以进行非扫描版和扫描版PDF中的图片识别和提取是非常重要的。
发明内容
本发明涉及PDF图片自动化提取中,P图片的自动识别以及图片的自动切割保存。其具体的技术方案如下:第一方面,一种从PDF中提取图片的方法,所述方法步骤为:
步骤101,转换模块将PDF转换为图片一;
步骤102,预处理模块将步骤101中得到的图片一进行预处理得到图片二;
步骤103,对步骤102中的图片二进行分析,获取单页PDF中的图片的位置并标注;
结合第一方面,在第一方面可能的实现方式中的第一种情况为,还包括步骤104,分割模块根据所述图片一中标注的彩色图片所在的位置分割图片,并保存所述分割的图片。
结合第一方面及第一方面可能的实现方式中的第一种情况,在第一方面可能的实现方式中的第二种情况为,所述步骤102为,预处理模块获取所述图片依次执行灰度化-滤波-二值化-去噪处理操作,生成预处理图片二。
结合第一方面可能的实现方式中的第三种或第四种情况,在第一方面可能的实现方式中的第五种情况为,所述步骤103为,分析模块获取所述预处理图片三,分析模块获取所述预处理得到的图片二,用腐蚀的方法预降噪处理;进行边界检测得到轮廓边界数组;对其中面积低于原始PDF图片一定比例的数组进行丢弃降噪;扫描降噪后的轮廓边界数组得到PDF中图片的位置信息。
结合第一方面可能的实现方式中的第五种情况,在第一方面可能的实现方式中的第六种情况为,所述步骤103为,分析模块获取所述预处理图片二,分析模块获取所述预处理得到的数值化图片,用腐蚀的方法预降噪处理;进行边界检测得到轮廓边界数组;对其中面积低于原始PDF图片一定比例的数组进行丢弃降噪;扫描降噪后的轮廓边界数组得到PDF中图片的位置信息。
第二方面,一种从PDF中提取图片的系统,所述系统结构为:
转换模块,用于将PDF文件按页分别保存为图片一;
预处理模块,用于对所述图片一执行预处理操作,生成预处理图片二;
分析标注模块,用于对所述图片二执行轮廓检测操作,分析边界框数据并过滤得到PDF中图片的位置,在所述图片一中标注所述图片的位置。
切割模块,用于根据所述标注图片中标注的所述图片分割所述PDF图片,并保存所述分割的图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰州大学,未经兰州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910223290.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:扭矩控制方法、装置、电子设备和存储介质
- 下一篇:垂直式探针卡及其矩形探针