[发明专利]一种用于自然语言信息隐藏的大规模可替换词词库构建方法有效

专利信息
申请号: 202010428651.6 申请日: 2020-05-20
公开(公告)号: CN111581952B 公开(公告)日: 2023-10-03
发明(设计)人: 向凌云;冯章成;傅明;郭国庆;杨双辉;刘宇航 申请(专利权)人: 长沙理工大学
主分类号: G06F40/247 分类号: G06F40/247;G06F40/242;G06F40/30;G06F16/31;G06F16/901
代理公司: 北京迎硕知识产权代理事务所(普通合伙) 11512 代理人: 钱扬保;张群峰
地址: 410114 湖南省*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 自然语言 信息 隐藏 大规模 替换 词库 构建 方法
【说明书】:

发明公开了一种用于自然语言信息隐藏的大规模可替换词词库构建方法,包括:步骤1,对于词典中的每个单词,对其进行计算以将其表示成低维稠密的词向量;步骤2,根据单词间的词向量距离,计算单词间的相似度,获取每个单词的相似词列表;步骤3,进行所有相似词之间的关联关系和相似程度的表示;步骤4,根据相似词之间的关联关系和相似程度构建候选可替换词词组。通过本发明,成功构建了一个大规模的候选可替换词词库,实现了对自然语言信息隐藏方法嵌入容量的提升,并通过候选可替换词的过滤提高了含密文本的质量,实现了秘密信息的安全性的提高。

技术领域

本发明属于信息安全领域,尤其涉及一种用于自然语言信息隐藏的可替换词词库构建方法。

背景技术

随着全球信息化的发展,语言文字成了生活、工作中必不可少的交际工具和信息载体,越来越多的人通过网络进行办公、学习、交谈等信息传递活动。据CNNIC最新发布《第44次中国互联网络发展状况统计报告》显示,截至2019年6月,中国网民规模达8.54亿,网络新闻用户规模达6.86亿,即时通信用户规模达8.25亿。这些数据表明,我国每时每刻都有丰富的文本数据在传输、公布、共享。因此,文本数据非常适合作为信息隐藏的载体实现隐蔽通信,保护秘密信息的安全传输和存储。另一方面,由于网络的开放性和共享性,使得文本数据容易遭受修改、复制、盗版等攻击,因此,非常有必要使用信息隐藏技术在文本数据中嵌入水印信息,实现重要文本数据的版权保护和泄密追踪等。

以文本内容为载体的自然语言信息隐藏是一种将秘密信息以不可感知的方式秘密地隐藏在公开文本载体中的技术,能够达到隐蔽通信、版权保护等目的。自然语言信息隐藏技术的核心是保持原始文本内容的可读性和语义不变性,因此,常利用语义等价词的替换、语义等价句型的变换等方式来嵌入秘密信息,替换或变换后的文本能够较好的保留原始文本在局部或全局的语义。由于不需要复杂的自然语言处理技术的支撑,已有的自然语言信息隐藏相关成果主要集中在利用同义词替换进行信息隐藏的方法上。

基于同义词替换的自然语言信息隐藏方法将同义的词编码成不同的值后,根据待嵌入的秘密信息,选择具有指定编码值的同义词来替换原始词实现秘密信息的嵌入。由于同义的词具有相似的含义,理论上,这种同义词的替换不会影响原始文本的含义,嵌入的秘密信息具有较好的隐蔽性。已有研究者从提高嵌入容量、嵌入效率和抗隐写分析检测能力等方面进行了深入研究,提出了许多相关的信息隐藏方法。然而,由于同义词数量的有限,且一个词只能出现在一个同义词词组中,否则容易导致秘密信息的嵌入失败,因此,已有的基于同义词替换的自然语言信息隐藏方法普遍存在嵌入容量低的问题,大大的降低了此类方法的实用性。

基于同义词替换的方法局限在同义词之间的相互替换,但在自然语言文本中,不止同义词是可相互替换来进行信息的隐藏。在很多情况下,具有相似上下文语境的词比如同位词、反义词等相互之间的替换,并不影响自然文本的可读性、使用价值和文本质量。如表示不同颜色的词在使用时,常常具有相似的上下文,在例句“She wears a green coat”中,当将green替换成其他颜色词red等,对句子的影响较少。在词典中,不管是green的哪一种词义项,均不包括red等颜色词作为近义(同义)词。因此,在已有基于词替换的自然语言信息隐藏方法中,不会利用此类词进行替换。但利用分布式词向量表示green和red后,通过向量之间的距离来计算两者的相似度高达0.9235,在这种情况下,可以将具有高相似度的green和red视为可替换词用于信息隐藏,从而扩大可替换词的范围,提高信息隐藏方法的嵌入容量。

基于上述分析,本发明提出了一种大规模可替换词词库构建方法,从两方面来提高基于同义词替换的信息隐藏方法的嵌入容量:可替换词词组的数量和互为可替换词的词数量。所构建的可替换词词库应用于基于同义词替换的自然语言信息隐藏方法时,大大提高了嵌入容量,同时生成的含密文本具有较高的文本质量和抗隐写分析检测能力。

发明内容

为实现本发明之目的,采用以下技术方案予以实现:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010428651.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top