[发明专利]一种基于PDF文件体的PDF文件信息嵌入和提取方法无效

申请号：	201210045736.1	申请日：	2012-02-27
公开（公告）号：	CN102646179A	公开（公告）日：	2012-08-22
发明（设计）人：	刘红梅;李雷	申请（专利权）人：	中山大学
主分类号：	G06F21/24	分类号：	G06F21/24;G06F17/30
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	邱奕才;禹小明
地址：	510006 广东省广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 pdf 文件信息嵌入提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于多媒体信号处理领域，具体涉及一种基于PDF文件体的PDF文件信息嵌入和提取方法。

背景技术

近些年，随着网络技术的快速发展,人们开始越来越多地通过互联网传输和获取信息。与此同时，电子商务、电子政务等新型办公模式正被广泛应用，越来越多的行政、商业文件如授权书、注册单、合同、发票等开始以电子文档的形式进行流通和传输。但在互联网这个开放的环境中,拷贝、篡改等恶意行为时刻威胁着电子文档的版权归属问题，大量版权盗用、非法传输、信息伪造等问题层出不穷。基于这种情况,电子文档的数据隐藏技术日益成为版权认证、真伪鉴定、解决纠纷的主要手段。

PDF(Portable Document Format)文件格式是Adobe公司开发的电子文件格式。这种文件格式在Windows、Unix、Mac等操作系统中都是通用的，独立于操作系统平台。PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息，支持特长文件，集成度和安全可靠性都较高。再者，PDF文件使用了工业标准的压缩算法，易于传输与储存。上述特性使得PDF成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。因此，基于PDF文档的信息隐藏技术的研究，对当前的应用环境，是有十分重要的实际意义的。下面对现有技术中PDF文件的结构进行简要分析，以便对本发明进行理解。

如图1所示是原始PDF的文件结构图，包括四部分：文件头(Header),文件体(Body)，交叉引用表(Cross-reference table)和文件尾(Trailer)。文件头标识PDF文件版本信息；文件体由一系列的间接对象组成，基本包含了PDF文件的内容；交叉引用表包含间接对象的地址信息，初始状态只有一个单元；文件尾记录PDF文件的根对象以及交叉引用表的起始地址等信息。

如图2所示，是经过追加式更新操作的PDF文件结构。在一次追加更新操作中，任何新的对象或者被修改的对象都会被添加到原始PDF文件尾的后面，组成新的文件体，新文件体对应的新交叉引用单元和新文件尾也会随着被插入到末尾。

如图3所示，是PDF文件交叉引用表示例图。每个交叉引用表包含一定范围内相邻对象号的对象词条。每个交叉引用表以关键字xref为一行开始，开始的一行包含由空格分开的两个数字，第一个数字表示该文件体中第一个对象的对象号，第二个数字表示该文件体中所有对象的数量。接下来的是对应PDF文件每个对象的每行一条的词条，词条结构是：

nnnnnnnnnn ggggg x y

其中nnnnnnnnnn是10字节的偏移量，表示从PDF文件开头到该对象开头的字节数，字节数不够10字节的则偏移量前面的数字填零；ggggg是5字节的等级号，除去0号对象外，其它对象的交叉引用表中的初始等级号均为0，每次词条被重用，都会被赋予一个新的等级号，最大为65535。x为对象状态关键字，有n、f、eol三个状态关键字，n表示正在使用的词条，f表示已被废弃的词条。eol为结束符。图3中的示例中指示了0到5一共六个对象的相关信息。

发明内容

本发明解决的技术问题是克服现有技术的不足，提供一种将嵌入信息嵌入到PDF文件新建的文件体中并能从PDF文件中提取出嵌入信息以对PDF文件进行鉴定的基于PDF文件体的PDF文件信息嵌入和提取方法。利用本发明对PDF嵌入信息后能够有效解决PDF版权认证、真伪辨别的问题，而且本发明对PDF文档的编辑行为具有很好的鲁棒性。

为解决上述技术问题，本发明的技术方案如下：

一种基于PDF文件体的PDF文件信息嵌入和提取方法，包括如下步骤：

（1）进行隐藏信息嵌入，其具体是：

读入原始PDF文件流；

读入隐藏信息进行分段，对每个隐藏信息段进行置乱，记录置乱参数；

查找并确定原始PDF文件流中的最大对象号；

将最大对象号加1作为新文件体插入的第一个新对象号，将每个隐藏信息段进行编码后作为新文件体的新对象依次写入原始PDF文件中，并生成新对象位置标志；

隐藏信息嵌入完毕后，写入新文件体对应的新交叉引用表和新文件尾，完成一次追加更新；

输出带隐藏信息的PDF文件及输出置乱参数和新对象位置标志作为密钥；

（2）提取隐藏信息，其具体是：

读取带隐藏信息的PDF文件流及密钥；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。