[发明专利]基于PDF文件解析的图谱数据处理方法在审

专利信息
申请号: 202110364531.9 申请日: 2021-04-06
公开(公告)号: CN112861822A 公开(公告)日: 2021-05-28
发明(设计)人: 刘羽;王辉;李姜晖;王贺;付俐;刘永 申请(专利权)人: 刘羽
主分类号: G06K9/00 分类号: G06K9/00;G06F40/166
代理公司: 暂无信息 代理人: 暂无信息
地址: 230022 安徽省合*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 pdf 文件 解析 图谱 数据处理 方法
【说明书】:

发明公开了一种基于PDF文件解析的图谱数据处理方法,该方法包括:通过解析文件获得图谱位置范围;分析路径对象(Path Object)识别出图谱曲线、积分线、刻度线,并获得相关的相对坐标数据;分析图谱文件中文本对象获得包含相对坐标的纵/横坐标轴的刻度线标注及图谱参数数据;对所获的刻度线标注文本与对应刻度线的相对坐标进行匹配,获得纵坐标刻度信息数据和横坐标刻度信息数据;将上述数据保存为结构化文件;设置解析策略,通过绘图软件导入上述带有坐标位置的信息,生成被抓取的图谱的复制对象。上述复制对象可转移至报告文件,成为报告图谱。

技术领域

本发明涉及实验室报告书报告管理领域,是基于PDF文件解析的图谱数据处理方法。

背景技术

图谱作为科学研究的重要手段,在分析实验中的作用巨大。图谱所反映的数据之间特征性的相关性直接或间接的反映出了被研究对象特定的物理化学性质,因此图谱解析作为现代实验室的主要研究手段异常重要。

现有lims系统(实验室信息管理系统)及SDMS(科学数据管理系统)多是对图谱中的文字性记录进行采集,对图谱的采集支持较差。相关报告通常是采用工作站或专用软件的报告程序生成的报告文件作为附件提供。

造成以下问题:1、图谱中的大量信息未被有效运用。2、所生成的报告格式不能统一。

PDF(Portable Document Format,便携式文档格式)是一种独立于硬件、操作系统、应用程序的电子文档。上述的图谱数据都可以通过虚拟打印的方式实现图谱报告的输出,生成图谱的PDF文件。PDF文件因其独特的优点成了事实上的实验室通用报告文本。

发明内容

发明目的:本发明针对数据采集存在的问题,提出了一种图谱数据转化的方法,通过不同的解析方式,将PDF格式的图谱内容转化为可通过绘图软件重新编辑的数据,实现图谱的抓取和使用。

技术方案:PDF是从PS语言(Postscript语言,即页面描述语言)发展而来的一种结构化的文档格式。通过页面描述指令对指定区域进行着色绘制页面,PDF支持5种类型的的位图对象(Graphics Object)包括:路径对象(Path Object),文本对象(Text Object),图像对象(Image Object)和外部对象(External Object:XObject)。

PDF文件中的图谱通常是采用路径对象(Path Object)形式实现,其中直线(Line),曲线(Curve),长方形(Rectangle)都属于路径对象(Path Object)。

PDF文件在绘制图谱时,会根据图谱的原始数据基于页面位置布局对进行处理。所绘制的图谱的坐标为在PDF页面中的位置,其坐标为“相对坐标”(相对于页面位置),会因为图谱报告排版的变化而发生变化。

随着信息技术的发展,目前工具已经可以实现对PDF文件中各类资源的解析,更进一步的可以实现对路径对象的识别和位置确定。这就为本发明的实现创造了必要的条件。

图谱中各类对象的属性包括位置、文本、颜色等属性都可以通过相应的解析工具进行解析,通过对相关解析结果进行识别、判断、分类,就可以将PDF文件中的图谱转化为包含位置信息,文本,功能的数据进行储存,上述数据又可以被基于矢量绘图方法的绘图软件合成,重现,从而实现图谱数据的调用。

由于采用了上述技术方案,本发明的有益效果为:通过对PDF中图谱内容的识别,读取和再合成,可以统一实验室的报告形式,无需通过附件形式或截图形式附加图谱;既可以实现图谱展示内容的个性化定制,又不减少图谱的特征性,有助于形成更规范的报告文本。

附图说明

此处的附图用于解释具体实施例,以便于更好的理解本发明,并不构成对本发明的不当限定。

图1为本发明的流程示意图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘羽,未经刘羽许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110364531.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top