[发明专利]一种影印PDF转可复制PDF方法及系统在审
申请号: | 202210517186.2 | 申请日: | 2022-05-13 |
公开(公告)号: | CN114926840A | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 孙俊;苟刚 | 申请(专利权)人: | 贵州大学 |
主分类号: | G06V30/146 | 分类号: | G06V30/146;G06V30/413;G06V30/414 |
代理公司: | 上海德誉达专利代理事务所(普通合伙) 31426 | 代理人: | 曹翠翠 |
地址: | 550025 贵州省*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 影印 pdf 复制 方法 系统 | ||
本发明公开了一种影印PDF转可复制PDF方法及系统,涉及办公文档信息处理技术领域,具体为一种影印PDF转可复制PDF方法及系统,包括步骤:S1、载入代转换PDF文档数据,提取其中的格式信息,转数值为对应的像素分辨率,使用fitz工具提取每页图片,放大分辨率并提升清晰度;S2、对每一张图片进行笛卡尔坐标系统转换到极坐标霍夫空间系统的直线霍夫变换,对图片进行可能的位置纠正。本发明解决了日常生活中大量图片影印型分辨率低、布局倾斜、无法复制等难以充分阅读、利用和目前转换方法提取文本信息却丢失排版信息,带来重复处理的问题。
技术领域
本发明涉及办公文档信息处理技术领域,具体为一种影印PDF转可复制PDF方法及系统。
背景技术
PDF为可便携文档格式,是目前一种应用最广泛的跨程序跨操作系统的文件格式。PDF承载了目前日常办公、教育学习和信息留证等大量的数据。当但作为一种排版优良所见即所得的文档格式,其编辑的难度要比常用的office系列文档要高得多,并且目前大部分数据的交互变动仍在office系列格式文档场景中。面对工作生活中大量易于生成但难以编辑利用的图片影印型PDF,往往只能自行打字排版或求助于OCR文本工具。传统的OCR文本工具存在手动效率低,缺少排版信息等问题。近年来深度学习在OCR技术的不断技术创新,文字识别率不断提升,能自动PDF转换文字并保留排版的研究已经有了一些有益的尝试,但都存在一些缺陷或不足,如市场上普遍使用的PDF转word产品转换后,丢失大量图片和背景,并且排版效果也不尽人意。
传统意义上的OCR技术可以解决文字的检测和识别需求,但在实际影印型PDF中,需要获取的是结构化的信息。目前影印型PDF转换成带排版文字的思路与实践是文档结构化识别,结合版面分析与OCR转文字处理。利用端到端的边缘检测等深度学习模型对PDF进行布局划分,然后结合OCR技术。如身份证、发票的信息格式化抽取,表格的结构化识别等等,然而目前只能在特定领域落地,泛化能力差,无法对包含各种元素的影印型PDF文档很好地处理。
发明内容
针对现有技术的不足,本发明提供了一种影印PDF转可复制PDF方法及系统,解决了上述背景技术中提出的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种影印PDF转可复制PDF方法及系统,其特征在于,包括步骤:
S1、载入代转换PDF文档数据,提取其中的格式信息,转数值为对应的像素分辨率,使用fitz工具提取每页图片,放大分辨率并提升清晰度;
S2、对每一张图片进行笛卡尔坐标系统转换到极坐标霍夫空间系统的直线霍夫变换,对图片进行可能的位置纠正;
S3、创建新的空白PDF,使用探测层对每一页进行文本位置区域探测,保留区域位置信息,使用识别模型识别每页的文本区域块,生成对应的文本信息;
S4、在新创建的PDF上使用一层Canvas,保留排版地把文本以确定的大小写上,然后附上每一张对应图片。
可选的,所述步骤S1进一步的,包括以下步骤:
S11、导入待处理PDF文档数据;
S12、根据PDF格式的结构,提取出布局信息,如实际尺寸(cm)等;
S13、转数值为对应的像素分辨率(px),A4纸,dpi=72,是595×842,不同dpi下参数意义不同,需要数值统一化,由于尺度的不同为了达到一一对应的排版效果必需进行尺度单位的转换,像素是指由图像的小方格组成的,这些小方块都有一个明确的位置和被分配的色彩数值,而像素与dpi(dots per inch)密不可分,dpi指打印分辨率(每英寸所能打印的点数,即打印精度)更严谨的说法是ppi(pixels per inch),图像的采样率;依据公式windows系统默认dpi为90;A4纸张,宽21cm,高度29.7cm,左右边距各3.17cm,上下边距各2.54cm;如果要以A4纸张打印,其宽度:14.66*90/2.54=519px;
S14、使用fitz工具把每页PDF转成图片,并放大分辨率,提升清晰度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210517186.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可自清洁的环保型印刷设备
- 下一篇:一种生活用纸生产用混合装置