[发明专利]一种基于生成对抗网络的文本隐写方法有效
申请号: | 201810833603.8 | 申请日: | 2018-07-26 |
公开(公告)号: | CN108923922B | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 段大高;赵振东;韩忠明;崔岩松 | 申请(专利权)人: | 北京工商大学 |
主分类号: | H04L9/08 | 分类号: | H04L9/08;H04L12/24;G06N3/08;G06N3/04 |
代理公司: | 北京盛询知识产权代理有限公司 11901 | 代理人: | 张海青 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 文本 方法 | ||
本发明公开了一种基于生成对抗网络的文本隐写方法,该模型将文本隐写看作是一个文本序列生成过程,通过密钥映射表将秘密文本有效地隐写于生成文本中,同时保证了生成文本有较高的质量,在对抗训练中使用策略梯度优化生成器,最后使得生成模型可以生成高质量隐写文本,相比于传统的训练方法,对抗学习过程可以让模型更好地拟合整个语料库的分布,生成更为合理的短语搭配和长文本。
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于生成对抗网络的文本隐写方法。
背景技术
隐写术是将秘密信息隐藏在公开载体中,以实现隐蔽通信的一种技术。根据载体数据类型的不同,隐写术可分为文本隐写、图像隐写、音频隐写和视频隐写等。文本隐写要求在文本数据中载入隐藏信息,并保持良好的可读性,同时不容易被察觉到,与存在大量冗余信息的图像、音频和视频等多媒体载体相比,文本隐写实现起来更加困难。实现文本隐写有多种途径,如改变文本的现有格式,文本同义词替换,生成随机字符序列和以特定语法生成可读文本]等。
传统的文本隐写方法主要基于修改已存在的载体文本,包括同义词替换、短语替换和文本排版格式变换等,已取得了很多成果。利用文本的排版结构冗余信息,现有技术提出通过增删字间和段间空格实现文本隐写的算法;或利用统计信息,在不改变原文本前提下,结合词的上下文语境选用适当的同义词替换原文本词语,以嵌入隐藏信息;或基于短语替换规则修改原文本,将隐藏信息嵌入文本载体的同时还保证了语法准确性和语句流畅度;或引入失真函数来衡量同义词替换后文本统计特征的改变程度,选择失真度最小的同义词组,用以嵌入隐蔽信息,提高了文本隐写的稳定性和安全性;或设计了一种中文繁简体替换的文本隐写算法,对隐写信息进行分段,通过“解释”的方式嵌入分段信息;或提出了一种基于中文标点的文本信息隐写算法,利用标点全角和半角互换来达到信息隐藏的目的。
尽管传统的文本隐写算法成果不少,但都是基于对文本载体的有限修改,如果较大规模同义词替换、标点互换、排版结构的替换和修改等方法,都会影响文本语法准确性和流畅度,因此,解决这一类的问题显得尤为重要。
发明内容
针对现有技术的不足,本发明提供了一种基于生成对抗网络的文本隐写方法,通过训练一个文本生成模型,实现隐藏信息的文本隐写,可以生成高质量的文本,同时将较多的隐写信息有效地嵌入输出文本信息中,已解决现有技术的不足。
为了解决现有技术的不足,本发明提供了一种基于生成对抗网络的文本隐写方法,其特征在于,包括:
基于生成对抗网络的文本生成模型:生成对抗网络由两部分组成,第一部分是生网络,第二部分是判别网络,让生网络和判别网络相互竞争,通过生成网络来生成假的数据,对抗网络通过判别器判别真伪,最后以生成网络生成的数据来以假乱真骗过判别器;
优化生成对抗网络:生成对抗网络的优化用生成器G和判别器D的零和博弈游戏来表示,其优化目标函数公式为
在生成对抗网络的优化过程中,需要训练生成器G来最大化判别数据来源真实数据还是生成数据,同时还需要训练生成模型来最小化使得生成的数据更加能够骗过判别器D,采用交替优化的方法,先固定生成器G,优化判别器D,使得判别器D达到最优,然后固定判别器D,优化生成器G,使得判别器D的判别准确率下降,当且仅当Pdata=Pg,即判别器D对真实采样样本和生成样本,输出概率都是0.5时达到全局最优解;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810833603.8/2.html,转载请声明来源钻瓜专利网。