[发明专利]基于PDF文件解析的图谱截图抓取方法在审
申请号: | 202110364510.7 | 申请日: | 2021-04-06 |
公开(公告)号: | CN112861820A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 刘羽;李姜晖;王辉;付俐;刘永;王贺 | 申请(专利权)人: | 刘羽 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/166 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230022 安徽省合*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 pdf 文件 解析 图谱 截图 抓取 方法 | ||
本发明公开基于PDF文件解析的图谱截图抓取方法,所述方法包括:通过解析文件的中以PDF页面为参照物生成的路径对象(Path Object),得到目标图谱的坐标范围;通过解析PDF页面属性,得到PDF页面的尺寸信息;上述得到的数据形成截图位置中间参数;将目标图谱的PDF页面保存为图片格式;分析输出图片的尺寸属性;根据截图位置中间参数、所保存的目标图谱的PDF页面图片的尺寸及截图专用软件的原点设置情况,进行计算,得到截图位置参数;通过截图专用软件导入截图位置参数对所保存的目标图谱的PDF页面图片进行处理,间接得到目标图谱的截图。上述方案可在PDF文件中对图谱进行准确定位,间接截取图谱为可引用的图片。
技术领域
本发明涉及实验室报告数据管理领域,是基于PDF文件解析的图谱截图抓取方法。
背景技术
图谱作为科学研究的重要手段,在分析实验中的作用巨大。
现有lims系统(实验室信息管理系统)及SDMS(科学数据管理系统)对多是对图谱中的文字性记录进行采集,对图谱的采集支持较差。图谱报告中的图谱因报告编辑的原因,其位置会发生变化,准确的截取较为困难。
目前的处理方式通常是采用工作站或专用软件的报告程序生成的报告文件作为附件提供。
PDF(Portable Document Format,便携式文档格式)是一种独立于硬件、操作系统、应用程序的电子文档。上述的图谱数据都可以通过虚拟打印的方式实现图谱报告的输出,生成图谱的PDF文件。PDF文件因其独特的优点成了事实上的实验室通用报告文本。
发明内容
发明目的:本发明针对数据采集存在的问题,提出了一种图谱的截取方法,通过判断图谱在图谱报告PDF页面中的位置,间接地在图谱报告页面上进行截取,实现图谱的抓取和使用。
技术方案:PDF是从PS语言(Postscript语言,即页面描述语言)发展而来的一种结构化的文档格式。通过页面描述指令对指定区域进行着色绘制页面,PDF支持5种类型的的位图对象(Graphic Objects)包括:路径对象(Path Object),文本对象(Text Obejct),图像对象(Image Object)和外部对象(External object:XObject)。
PDF文件中的图谱通常是采用路径对象(Path Object)形式实现,其中直线(Line),曲线(Curve),长方形(Rectangle)都属于路径对象(Path Object)。
随着信息技术的发展,目前已经工具可以实现对PDF文件中各类资源的解析,更进一步的可以实现对路径对象的识别和位置确定。这就为本发明的实现创造了必要的条件。
图谱报告通常采用安装于PC机、工作站或者网络服务器的专用工作软件的报告程序调用预设报告模板生成图谱报告,通过调用PDF的虚拟打印功能生成图谱报告的PDF文件。在上述过程中,所设置的报告模板会以框架的形式设定报告图谱的位置范围,这种框架在进行PDF虚拟打印的过程中通常采用长方形(Rectangle)的路径对象的形式输出到PDF页面上。
通过对这一路径对象的识别即可得到图谱的位置范围;结合页面尺寸的数据,即可测算所需确定的位置范围在各个方向的比例特征;通过对目标页面图像的等比例处理,即可实现准确截图。
由于采用了上述技术方案,本发明的有益效果为:可在PDF文件中对图谱进行准确定位,间接截取图谱为可引用的图片;可以统一实验室的报告形式,无需通过附件形式附加图谱,有助于形成更规范的报告文本;减少人工介入,提高工作效率。
附图说明
图1为本发明的流程示意图;
图2为本发明中实施例1的目标图谱PDF页面;
图3为本发明中的相关术语示意图(以实施例1为例);
图4为本发明中实施例1处理过程的示例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘羽,未经刘羽许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110364510.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种深井救援设备
- 下一篇:基于PDF文件解析的图谱数据还原方法