[发明专利]一种从PDF中提取图片的方法、系统及装置在审
申请号: | 201910223290.9 | 申请日: | 2019-03-22 |
公开(公告)号: | CN111724387A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 周睿;魏永强;周庆国;仝倩倩;张文强;魏文浩;于亮;陆笛;廖伟志;胡轶凛;冉竹君 | 申请(专利权)人: | 兰州大学 |
主分类号: | G06T7/11 | 分类号: | G06T7/11;G06T5/00;G06T5/30;G06T7/13 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 730000 甘肃省兰*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 提取 图片 方法 系统 装置 | ||
1.一种从PDF中提取图片的方法,其特征在于所述方法步骤为:
步骤101,转换模块将PDF转换为图片一;
步骤102,预处理模块将步骤101中得到的图片一进行预处理得到图片二;
步骤103,对步骤102中的图片二进行分析,获取单页PDF中的彩色图片的位置。
2.根据根据权利要求1所述的一种从PDF中提取图片的方法,其特征在于所述方法还包括:
步骤104,分割模块根据所述图片一中标注的彩色图片所在的位置分割图片,并保存所述分割的图片。
3.根据权利要求1或2所述的一种从PDF中提取图片的方法,其特征在于所述步骤102的预处理操作为按照任意顺序执行包含如下处理的操作:
预处理模块获取所述图片执行灰度化操作;
预处理模块获取所述图片执行二值化操作;
预处理模块获取所述图片执行平滑处理;
预处理模块获取所述图片执行模糊处理。
4.根据权利要求1所述的一种PDF中提取图片的方法,其特征在于所述步骤104所述图像分割操作中依据图像面积大小和膨胀腐蚀方法做降噪处理。
5.根据权利要求3或4所述的一种PDF中提取图片的方法,其特征在于所述步骤104为:
分析模块获取所述预处理得到的数值化图片,用腐蚀的方法预降噪处理;
分析模块获取降噪处理后的数值化图片,进行边界检测得到轮廓边界数组;
分析模块依次扫描轮廓边界数组,对其中面积低于原始PDF图片设定比例的数组进行丢弃降噪;
分析模块扫描降噪后的轮廓边界数组,得到矩形框数据(x1,y1,x2,y2);
分析模块依据矩形框标定PDF中的图片。
6.一种从PDF中提取图片的系统,其特征在于所述系统结构为:
转换模块,用于将PDF文件按页分别保存为图片一;
预处理模块,用于对所述图片一执行预处理操作,生成预处理图片三;
分析模块,用于生成所述预处理图片三的边界轮廓图,生成边界轮廓数组,获取所述图片在单页PDF中的位置;
标注模块,用于在所述图片一中标注所述彩色图片的位置,生成标记数据;
分割模块,用于根据所述标记数据位置分割所述标注图片,并保存所述分割的图片。
7.根据权利要求7所述的一种从PDF中提取图片识别和分割的系统,其特征在于所述预处理模块执行灰度化、二值化、平滑处理、模糊处理生成预处理图片二;所述分析模块获取所述图片二,用腐蚀的方法预降噪处理,进行边界检测得到轮廓边界数组,依据标定轮廓面积进行分析校正,扫描降噪后的轮廓边界数组,得到矩形框数据(x1,y1,x2,y2),依据矩形框标定PDF中的图片。
8.一种从PDF中提取图片识别和分割的装置,其特征在于所述装置包括:计算机可读存储装置、中央处理器、总线;所述计算机可读存储装置同所述中央处理器通过总线进行连接;所述计算机可读存储装置存储有多条操作指令供中央处理器调用以及存储权利要求1-6所述方法生成的图片供所述中央处理器通过所述操作指令进行调用,所述中央处理器执行所述操作指令实现权利要求1-6所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰州大学,未经兰州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910223290.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:扭矩控制方法、装置、电子设备和存储介质
- 下一篇:垂直式探针卡及其矩形探针