[发明专利]抗打印扫描攻击的PDF文档水印方法及装置有效
申请号: | 202010677029.9 | 申请日: | 2020-07-14 |
公开(公告)号: | CN112053275B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 王道顺;刘景财;刘乃熙;贾星星;巩林明 | 申请(专利权)人: | 清华大学 |
主分类号: | G06T1/00 | 分类号: | G06T1/00;G06F21/16 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 打印 扫描 攻击 pdf 文档 水印 方法 装置 | ||
本申请公开了一种抗打印扫描攻击的PDF文档水印方法及装置,其中,方法包括以下步骤:对初始PDF文档进行解析分析,得到初始PDF文档的文本行距信号;将预设水印信息嵌入到文本行距信号中,生成含有水印的行距信号;基于含有水印的行距信号由初始PDF文档生成最终PDF文档;根据最终PDF文档生成文档图像,从文档图像中检测文本行的边界框,并计算最终PDF图像的行距信号,以提取得到水印信息。本申请实施例通过引入文本检测技术不仅可以准确地计算出行距信号,而且能够补偿由打印扫描过程引入的大多数攻击。
技术领域
本申请涉及文本水印技术领域,特别涉及一种抗打印扫描攻击的PDF(PortableDocument Format,便携式文档格式)文档水印方法及装置。
背景技术
打印扫描攻击是指含有水印的文本文档通过打印机输出复印件,然后再经过扫描仪生成文本文档图像的过程。实际上,打印扫描攻击是文本水印中常见的一种复合攻击类型,即由多种类型的攻击组合而成,主要包括噪声攻击、非线性攻击(如伽玛校正和数字半色调)、几何攻击(如旋转、缩放、裁剪)等。
因此,这就要求抗打印扫描攻击的数字水印算法必须对以上这些攻击具有较高的鲁棒性。
申请内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一目的在于提出一种抗打印扫描攻击的PDF文档水印方法,该方法通过引入文本检测技术不仅可以准确地计算出行距信号,而且能够补偿由打印扫描过程引入的大多数攻击。
本申请的第二个目的在于提出一种抗打印扫描攻击的PDF文档水印装置。
为达到上述目的,本申请第一方面实施例提供一种抗打印扫描攻击的PDF文档水印方法,包括以下步骤:对初始PDF文档进行解析分析,得到所述初始PDF文档的文本行距信号;将预设水印信息嵌入到文本行距信号中,生成含有水印的行距信号;基于所述含有水印的行距信号由所述初始PDF文档生成最终PDF文档;根据所述最终PDF文档生成文档图像,从所述文档图像中检测文本行的边界框,并计算所述最终PDF图像的行距信号,以提取得到水印信息。
根据本申请实施例的抗打印扫描攻击的PDF文档水印方法,通过分析打印扫描过程引入的多种攻击,利用文本检测技术补偿打印扫描过程所产生的多种攻击,并尽可能准确地从打印扫描后生成的文档图像中计算出行距信号,提高PDF文档水印算法的鲁棒性。
另外,根据本申请上述实施例的抗打印扫描攻击的PDF文档水印方法还可以具有以下附加的技术特征:
在本申请的一个实施例中,还包括:对所述行距信号基于预设优化量化步长的策略进行量化处理,以抵抗固定增益攻击。
在本申请的一个实施例中,在从所述文档图像中检测文本行的边界框之前,还包括:检测待文本检测的要求;根据所述要求判断符合基于滑动窗口分类文本检测方式或者基于连接成分分析文本检测方式。
在本申请的一个实施例中,在符合所述基于滑动窗口分类文本检测方式时,所述从所述文档图像中检测文本行的边界框,并计算所述最终PDF图像的行距信号,包括:利用多种尺度的窗口在所述文档图像上滑动,且通过分类器将每个窗口标划分为文本段窗口或非文本段窗口;对所述文本段窗口执行形态学操作,确定文本区域。
在本申请的一个实施例中,在符合所述基于连接成分分析文本检测方式时,所述从所述文档图像中检测文本行的边界框,并计算所述最终PDF图像的行距信号,包括:提取所述文档图像的文本字符;基于所述文本字符合成文本片段,并且过滤所述文本片段中非文本段,以将过滤的文本片段合成文本行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010677029.9/2.html,转载请声明来源钻瓜专利网。