[发明专利]一种基于中文句式模板变换的文本隐藏方法无效
申请号: | 200910023743.X | 申请日: | 2009-09-01 |
公开(公告)号: | CN101639826A | 公开(公告)日: | 2010-02-03 |
发明(设计)人: | 何路;房鼎益;陈晓江;马广平 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 西安恒泰知识产权代理事务所 | 代理人: | 李 婷 |
地址: | 710069陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 中文 句式 模板 变换 文本 隐藏 方法 | ||
1.一种基于中文句式模板变换的文本隐藏方法,该方法利用计算机系统对文本信息进行水印的嵌入与提取,从而实现对文本信息的隐藏,所述的计算机系统至少包括:
改写模板库,用来存储所有的中文句式,以词性标注串来表示中文句式,而词性标注是用现有的中文分词工具标注出中文的汉字、词语、或者短语的词性;
约束库,把字词按概念、范畴的粗细归类,再把实际的语言包含着许多语用习惯、因词而异的特例和分类作为针对具体语境应用模板时的约束,形成约束库;通过约束把可能不合乎汉语语法、语用习惯的变换过滤掉;
电子文档预处理模块,用以向系统提交待保护的电子文档,并对电子文档中的内容进行句子切分、字符格式转换预处理操作;
词性标注模块,利用现有的中文分词工具,对文档文本中的句子进行词性标注,提取出句子中的词性标注串;
组块标注模块,用以将句子的词性标注串进行化简,找出句子中的短语,从而合并词性标注串;
水印生成模块,用以将包括秘密信息的需要隐藏的信息量化为一组数字;
加载模板模块,用以加载改写模板库中全部句式模板或其子集;
水印嵌入模块,用以向待保护的电子文档中嵌入水印信息;
水印提取模块,用以提取已经嵌入水印的文本中的水印信息;
其中所述的电子文档预处理模块、词性标注模块、组块标注模块和水印嵌入模块依次相连,改写模板库、约束库、加载模板模块和水印提取模块依次相连,其中,加载模板模块与组块标注模块相连后与水印生成模块分别与水印嵌入模块相连;其基于中文句式模板变换的文本隐藏方法,包括以下步骤:
步骤一,将待保护的电子文档原始文本输入至电子文档预处理模块,由电子文档预处理模块对电子文档原始文本进行预处理,将电子文档原始文本切分成句子,并转换为无格式的txt格式文档;
步骤二,利用水印生成模块对待保护的电子文档原始文本生成要嵌入的秘密信息,即水印信息,并将该水印信息记为w,并用给定密钥k加密,随机生成大素数记为p;
步骤三,词性标注模块对步骤一生成的无格式txt格式文档进行词性标注,输出句子的词性标注串;
步骤四,组块标注模块对步骤三输出的词性标注串进行化简;
步骤五,加载模板模块首先对以xml文件形式表示的并以密文形式存储的改写模板库TP进行解密,然后根据大素数P,利用二次剩余理论给TP节点即改写模板对进行0或1的随机编码,选取其中全为0或1的节点作为嵌入秘密信息时使用的改写模板库,记为TP’;最后利用大素数P给TP’中的节点即改写变换后的词性标注串进行编码,完成模板的加载过程;
步骤六,水印嵌入模块利用步骤五选择的改写变换后的词性标注串来匹配步骤三输出的词性标注串,并根据匹配约束条件来判断是否进行句式变换来嵌入步骤二生成的水印信息;
步骤七,输出嵌入水印后的隐藏文本;
步骤八,水印提取模块利用密钥k提取隐藏文本中的水印信息w。
2.如权利要求1所述的基于中文句式模板变换的文本隐藏方法,其特征在于:所述的改写模板库其提取过程包括以下步骤:
(1)借鉴汉语言语法研究成果,根据句式变换分析结果对相关句子进行匹配改写,并人工验证其正确性,当改写后的句子同时满足语法与语义要求时,抽取出模板及约束条件,重新再回到语料库进行匹配及改写,验证模板的改写效果及覆盖率,直至错误的概率在可接受的范围之内;
(2)将步骤(1)中经验证的模板添加到改写模板库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910023743.X/1.html,转载请声明来源钻瓜专利网。