[发明专利]一种基于序列到隐写序列的自然语言信息隐藏方法在审
申请号: | 202110951492.2 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113657107A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 向凌云;杨双辉;刘宇航;陈泽宇;章登勇;夏卓群 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F21/60;G06F40/237;G06F40/274 |
代理公司: | 北京迎硕知识产权代理事务所(普通合伙) 11512 | 代理人: | 钱扬保;张群峰 |
地址: | 410114 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 到隐写 自然语言 信息 隐藏 方法 | ||
本发明公开了一种基于序列到隐写序列的自然语言信息隐藏方法,包括以下步骤:步骤1.数据预处理;步骤2.语言编码;步骤3.信息隐写;其中步骤1利用语料库训练分布式词向量表示模型,获得词汇表中每个词的稠密低维词向量。步骤2利用双向LSTM网络和复制机制构建语言编码器。步骤3利用步骤2获得的语言编码器提取源文本的上下文信息,并使用基于多候选的动态隐写编码方法,根据秘密信息控制隐写器生成隐写摘要文本。
技术领域
本发明涉及信息安全领域,尤其涉及一种基于序列到隐写序列的自然语言信息隐藏系统及方法。
背景技术
在当今社会,信息安全一直是不容忽视的一个问题,人们对秘密通信(即在通信过程中第三方无法知晓通信的存在及通信的内容)的需求越来越庞大。目前,保证秘密通信安全的技术手段主要有两种:密码技术和信息隐藏技术。其中,采用密码技术加密后的通信内容往往是杂乱无章的乱码,非授权用户不可读,从而保证通信内容的安全,但另一方面这种特殊性,也容易暴露秘密通信的事实,引起攻击者的注意和有针对性的攻击。而信息隐藏技术则克服了加密后的载体容易引起第三方攻击这一弊端,将秘密信息隐藏到某种正常的公开载体中,通过含密载体的传输实现安全的隐蔽通信。由于秘密信息的存在性被掩藏,从而不容易引起攻击者的怀疑进而进行攻击。以文本内容为载体的生成式自然语言信息隐藏方法发展较为迅速,尽管这类方法能够大大地提高生成的隐写文本的质量以及嵌入容量,但是这些方法局限在自动生成短文本,生成的隐写文本越长质量越差,且句子之间的语义相关性越来越低。为了保证隐写文本的质量,生成文本不宜过长,此时实际的可安全嵌入的秘密信息偏少。
为了解决高质量长隐写文本的生成问题以及提高隐写文本生成模型的通用性,本发明提出了基于序列到隐写序列模型的自然语言信息隐藏方法,可以适用于各种生成式自然语言信息隐藏方法,本发明自动生成的隐写摘要文本较长,可隐藏的秘密信息更多,同时隐写文本的质量更高,具有更好的隐蔽性。
发明内容
为实现本发明之目的,采用以下技术方案予以实现:
一种基于序列到隐写序列的自然语言信息隐藏方法,包括以下步骤:
步骤1.数据预处理;
步骤2.语言编码;
步骤3.信息隐写;
其中步骤1包括:对文本数据集所包含的文本内容进行分词,并且对词的统计学信息进行搜集统计,得出词汇表、词频,利用语料库训练分布式词向量表示模型,获得词汇表中每个词的稠密低维词向量。
所述的基于序列到隐写序列的自然语言信息隐藏方法,其中步骤2包括:
将长文本作为源文本发送给语言编码器,语言编码器将源文本通过分布式词向量模型转换成向量作为输入并进行编码,产生固定长度的语言编码器隐藏状态hi;
结合隐写器的隐藏状态st,计算注意力分布:
其中,v,Ws,Wh,battn都为神经网络学习到的参数,at为注意力分布;
语言编码器根据注意力分布产生一个语言编码器的隐藏状态加权和,即上下文向量
语言编码器输出一个上下文向量和一个注意力分布at,这里的注意力分布视为输入序列的概率分布。
所述的基于序列到隐写序列的自然语言信息隐藏方法,其中步骤2还包括:
语言编码器还计算一个概率覆盖向量ct:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110951492.2/2.html,转载请声明来源钻瓜专利网。