[发明专利]避免中文自然语言信息隐藏嵌密前后分词不一致的方法无效

专利信息
申请号: 201110122787.5 申请日: 2011-05-12
公开(公告)号: CN102201046A 公开(公告)日: 2011-09-28
发明(设计)人: 何路;陈长安;吴建涛;房鼎益 申请(专利权)人: 西北大学
主分类号: G06F21/00 分类号: G06F21/00
代理公司: 西安恒泰知识产权代理事务所 61216 代理人: 李婷
地址: 710069 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 避免 中文 自然语言 信息 隐藏 前后 分词 不一致 方法
【说明书】:

技术领域

发明涉及自然语言信息隐藏领域,特别涉及一种避免中文自然语言信息隐藏嵌密前后分词不一致的方法。

背景技术

随着计算机网络的发展,数字视频、数字音频、电子文档等数字产品都可以通过网络迅速传播到全球各地。由于这些数字产品制作成本低、可以无限复制、在网络上传播的速度非常快,导致盗版和攻击数字产品变得轻而易举。鉴于此,近几年数字产品的安全防护以及版权保护越来越受到商业界和学术界的重视。

目前针对数字产品的保护方式主要包括加密方式和信息隐藏方式,传统的加密方式可以有效的保护数据传输过程中的信息安全,但是数据一旦被所有者接收并解密,就无法继续起到保护作用,而且也不能防范所有者对解密后的数据进行复制和传播。

针对传统加密方式的不足,很多研究者开始关注一种新的安全技术即信息隐藏技术。所谓信息隐藏是将秘密信息隐藏在非机密的载体内容之中,载体形式可以是视频、音频、图像或文本文档等。在所有的载体形式中,文本文档是人们进行信息交换的主要方式之一,尤其军事部门,政府机关,国家安全部门,商业机构的机密文件都需要得到有效保护。

自然语言信息隐藏是指通过对文本内容进行语义的等价替换或者语态转换,从而把秘密信息嵌入到载体文本中。根据文本变换所涉及的层次不同,又可以将自然语言信息隐藏分为:基于同义词替换的信息隐藏、基于句法的信息隐藏以及基于语义的信息隐藏。

上述方法中,由于词法分析技术已经比较成熟,而句法分析和语义分析的技术研究还处于探索阶段,所以基于同义词替换的信息隐藏方法是比较流行的,这种方法使用载体文本中的同义词承载秘密信息。

目前,英文文本同义词替换的方法已经有了很多研究成果。研究人员提出了一系列的算法,可以让秘密信息隐藏得更加隐蔽或者不易被攻击者破坏。与之相比,中文文本的同义词替换方法在借鉴英文文本同义词替换方法的时候,由于语言体系的差异遇到了特有的困难,最为突出的是中文分词问题。

中文文章的句子是一长串连续的汉字,不像英文单词直接通过空格分隔开。目前,现有的中文分词工具,比如中国科学院计算技术研究所的分词工具ICTCLAS、哈工大信息检索研究中心的分词工具LTP,分词正确率都达不到100%,这就可能造成文章嵌密前后分词结果不一致,导致秘密信息提取错误。

例如:中文原句“我手指头流血了”。ICTCLAS对原句的分词结果是:“我 手指头 流血 了”。其中“手指头”有同义词“手指”,“流血”有同义词“出血”。两者都可以承载秘密信息。我们有下表

通过同义词替换,可以获得的含密新句子与对应的ICTCLAS分词结果如下表:

原句与新句3比较发现:含密句子分词结果与原句不一致,“手指”和“出血”没被正确的切分出来,导致两者承载的秘密信息丢失。并且原句与新句1比较可知,如果“流血”没有被替换成“出血”,只把“手指头”替换成“手指”,那么含密句子分词结果是与原句一致的。由此可见,同义词替换可能导致含密新句分词结果与原句不一致,并且含密句子中词的切分结果,与句子其他词的替换情况直接相关。

目前已经提出的解决嵌密前后分词不一致的方法有两类。第一类是基于物理相邻的词汇验证方法。另一类是参考语义和语境的方法。这两类方法都有各自的缺点和不足。

第一类基于物理相邻的词汇验证方法的思路是,如果一个词的同义词替换上去后,含密的新句子分词结果与原句不一致,那么就不使用这个词承载秘密信息。这种方法虽然在一定程度上缓解了嵌密前后分词不一致的问题,但是却没有把这种问题彻底解决:因为这种方法没有考虑到一个句子中其他词同时也可以被替换,所以无法保证含密句子与原句分词一致。

比如上例,应用这种方法会出现以下结果:

嵌入时,原句“手指头”和“流血”都可以承载秘密信息。因为通过这种预替换的方法生成的新句1、新句2分词结果和原句一致。我们使用这两个词都承载秘密信息,可以生成新句3。

提取时,新句3的分词结果显示,“手指”和“出血”都被错误地切分了,新句3的分词结果与原句不一致。可见,这种预替换的方法没有100%地解决嵌密前后分词不一致的问题。

第二类参考语义和语境的方法。这类方法其实也是预替换的思路,与基于物理相邻的词汇验证方法的区别在于,这类方法考虑了上下文语境。现在已经提出了两种属于这种类别的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110122787.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top