[发明专利]一种PDF文档目录的获取方法及装置在审
申请号: | 201410428096.1 | 申请日: | 2014-08-27 |
公开(公告)号: | CN105447027A | 公开(公告)日: | 2016-03-30 |
发明(设计)人: | 刘利川 | 申请(专利权)人: | 北大方正集团有限公司;北大方正信息产业集团有限公司;上海方正数字出版技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
地址: | 100871 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 文档 目录 获取 方法 装置 | ||
技术领域
本发明涉及信息抽取领域,特别是涉及一种PDF文档目录的获取方法及装置。
背景技术
PDF,全称PortableDocumentFormat,即“便携文档格式”,是一种电子文档格式,这种格式与操作平台无关,跨平台特点突出,可在几乎所有的平台上使用。这一特性使它成为在Internet上进行电子文档发行和数字化信息传播的首选文档格式,越来越多的图书文献资料首选PDF作为其电子发布的形式,如电子图书、产品说明、公司公告、网络资料、电子邮件等。PDF格式已成为用于将信息数字化的一个事实上的工业标准。
PDF格式有其鲜明的技术特色,如跨平台性优越;可集成多种媒体信息出版和发布,可集成超文本链接、声音及动态影像等电子信息;提供了对网络信息发布的支持。其中,在PDF的可信可靠,维护信息完整性与一致性及保持信息安全性上,最为使用者所称道的则是其安全性,数字签名或使用密码保护。而其他格式则很容易地可以修改或编辑。
PDF的安全性首先保证了PDF文档不能被编辑,至少不能被轻易修改;其次,可通过设置权限,限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除。
PDF文档只供阅读,不能被修改,确保了内容的完整性与其他特性。
PDF格式设计的初衷不是用来编辑的,对PDF文件内的小部分变动可能问题不大,但对PDF文档中的整块文字或影像的修改就相当困难,即便使用市场上的有关工具,也无法避开这类限制。
目录基本上是图书的一个必要的组成部分,也是大多数其他形式资料的重要构成成份,利用目录可快速导航到所要查看的页面,便于用户检索相关内容。对于图书的使用者来讲,其作用重大。
基于PDF格式本身的上述特点,当人们欲对PDF文档目录进行编辑和修改是不太容易实现的。
发明内容
本发明的目的是提供一种PDF文档目录的获取方法及装置,能够解决现有技术对PDF文档中的目录进行修改和编辑存在困难的问题。
为了解决上述技术问题,本发明的实施例提供一种PDF文档目录的获取方法,其中,包括:
对PDF文档的体系结构进行解析,获取PDF文档的交叉索引表;
对所述交叉索引表进行检索,得到文件尾TRAILER字典;
对所述文件尾TRAILER字典进行分析,得到键值ROOT对应的目录簿CATALOG字典;
对所述目录簿CATALOG字典进行检索,获得所述PDF文档的目录。
其中,所述对PDF文档的体系结构进行解析,获取PDF文档的交叉索引表的步骤包括:
对PDF文档的树形层次数据结构进行解析,获取所述PDF文档的交叉索引表。
其中,所述对所述TRAILER字典进行分析,得到键值ROOT对应的目录簿CATALOG字典的步骤包括:
对所述TRAILER字典进行分析,获取键值ROOT;
根据所述键值ROOT,获取所述键值ROOT对应的目录薄CATALOG字典。
其中,所述对所述目录簿CATALOG字典进行检索,获得所述PDF文档的目录的步骤包括:
对所述目录薄CATALOG字典进行检索,获取键值OUTLINES;
根据所述键值OUTLINES,获取所述键值OUTLINES对应的目录对象以及目录对象中各目录项的父级目录项、兄级目录项以及子级目录项信息;
对所述各目录项的父级目录项、兄级目录项和子级目录项信息进行提取,获得所述PDF文档的目录。
其中,所述对所述各目录项的父级目录项和子级目录项进行提取的步骤包括:
步骤a,获取所述目录对象中一当前目录项;
步骤b,根据所述各目录项的父级目录项以及子级目录项信息,获取所述当前目录项的父级目录项和所述当前目录项的子级目录项。
其中,所述对所述各目录项的兄级目录项进行提取的步骤包括:
步骤c,获取所述目录对象中一当前目录项;其中,每个目录项包含上一个PREV指针信息和下一个NEXT指针信息;
步骤d,根据所述当前目录项的PREV指针信息,获取所述当前目录项的上一个兄级目录项;其中,所述上一个兄级目录为一新当前目录项;和/或
根据所述当前目录项的NEXT指针信息,获取所述当前目录项的下一个兄级目录项;其中,所述下一个兄弟目录项为一新当前目录项;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北大方正信息产业集团有限公司;上海方正数字出版技术有限公司,未经北大方正集团有限公司;北大方正信息产业集团有限公司;上海方正数字出版技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410428096.1/2.html,转载请声明来源钻瓜专利网。