[发明专利]PDF报表数据提取方法及装置有效
申请号: | 201811488861.3 | 申请日: | 2018-12-06 |
公开(公告)号: | CN109582928B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 许德峰 | 申请(专利权)人: | 万兴科技股份有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/154;G06F40/114 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 苏胜 |
地址: | 850000 西藏自治区拉萨市柳梧新区东环路以西*** | 国省代码: | 西藏;54 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | pdf 报表 数据 提取 方法 装置 | ||
本申请提供了一种PDF报表数据提取方法及装置,所述方法包括:根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据。根据XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据;根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。通过XML格式模板提取PDF文档格式的报表数据,便于对报表数据进行统计,极大的提高了报表的可识别性和灵活性。
技术领域
本申请涉及数据提取领域,具体而言,涉及一种PDF报表数据提取方法及装置。
背景技术
PDF格式具有很强的安全性,保证了PDF文档不能被编辑,至少不能被轻易修改,对PDF文件内的小部分变动可能问题不大,但对PDF文档中的整块文字或影像的修改就相当困难,即便使用编辑工具,也无法避开这类限制。并且PDF格式的文档可通过设置权限,限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除,而其他格式则很容易地被修改或编辑。
鉴于以上安全性保障,各大公司的财务报表都是以PDF格式形式进行发布,能够避免数据被肆意篡改的风险。PDF虽然带来了安全性、传输可靠性上的保证,但对于财务报表数据的统计也带来了许多不便,因此,从PDF中提取报表数据信息的需求也就应运而生。
发明内容
为了解决上述问题,本申请实施例提供一种PDF报表数据提取方法及装置。
第一方面,本申请实施例提供一种PDF报表数据提取方法,所述方法包括:
根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据;
根据所述XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据;
根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。
可选地,在本实施例中,根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,包括:
对所述PDF文档中的第一页面树Pages Root进行检索,以获取第一页面字典;
对所述第一页面字典进行检索,以获取第一页面字典中的第一Contents字典项;
对所述第一Contents字典项进行检索,以获取所述第一Contents字典项中的第一内容流;
根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板,其中所述内容信息包括报表的表头、各个数据项名称,所述坐标信息包括表头和各个数据项坐标。
可选地,在本实施例中,所述XML格式模板包括名称节点和坐标节点,其中,所述坐标节点为所述名称节点的子节点,所述根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板,包括:
将所述第一内容流中的内容信息写入所述XML格式模板的名称节点中;
将所述第一内容流中的坐标信息写入所述XML格式模板的坐标节点中。
可选地,在本实施例中,在根据所述XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据之前,还包括解析目标PDF文档的步骤,所述步骤具体包括:
对所述目标PDF文档中的第二页面树Pages Root进行检索,以获取第二页面字典;
多所述第二页面字典进行检索,以获取第二页面字典中的第二Contents字典项;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于万兴科技股份有限公司,未经万兴科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811488861.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置