[发明专利]一种可跨语料库可跨算法的生成式文本隐写分析方法在审
申请号: | 202310011465.6 | 申请日: | 2023-01-05 |
公开(公告)号: | CN116050399A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 李松斌;杜辉;王津港;魏晓曦;劳成旺;陈榕魁 | 申请(专利权)人: | 中国科学院声学研究所南海研究站;恒锋信息科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F18/241;G06F18/27 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;杨青 |
地址: | 570105 海*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料库 算法 生成 文本 分析 方法 | ||
本发明公开了一种可跨语料库可跨算法的生成式文本隐写分析方法,该方法包括:将文本片段输入预先建立和训练好的的文本隐写检测模型,实现对自然文本与隐写文本的判别;所述文本隐写检测模型包括依次连接的词重要性语义编码模块、词间关联多尺度感知模块和岭回归分类模型;其中,所述词重要性语义编码模块,用于提取文本片段的语义特征;所述词间关联多尺度感知模块,用于从语义特征中获取词间关联特征;所述岭回归分类模型,用于根据词间关联特征实现对自然文本与隐写文本的判别。本发明的方法实现在少样本场景下仍能保持对自然文本与隐写文本的精准判别,性能指标超过现有方法。
技术领域
本发明涉及信息安全及深度学习技术领域,特别涉及一种可跨语料库可跨算法的生成式文本隐写分析方法。
背景技术
隐写术能够将秘密信息嵌入在图像、声音、文本等数字媒体介质上而不给其带来显著变化。借助隐写术可以在不引起监管者怀疑的情况下将修改过的载体通过公共信道发送给接收者,之后接收者从中完整重构秘密信息从而实现隐蔽通信。文本作为人类在日常生活中的主要通信媒介,这导致其会是一种重要的信息隐藏载体。文本隐写主要包含两类方法:基于修改式的和基于生成式的。基于修改式的文本隐写是指在已有文本载体的基础上对文本格式或内容进行修改来嵌入秘密信息,嵌入载荷不高。基于生成式的文本隐写是指借助语言模型在大规模语料库下学习文本词间统计分布,然后根据秘密信息直接生成隐写文本。这类方法允许嵌入更多的秘密信息从而造成了更大的信息安全威胁。因此,为了预防违法犯罪分子利用生成式文本隐写实施危害公共信息安全的活动,有必要开发出一种性能优异的生成式文本隐写分析算法。
生成式文本隐写分析方法主要分为两类,基于人工特征提取的方法与基于深度学习的方法。人工特征提取方法的基本思想为手工提取文本特征后送入支持向量机等传统分类器实现分类。该方法的缺点是需要大量领域知识且提取特征与训练分类器分离导致检测性能不高,难以应对新兴的生成式文本隐写方法生成的高质量隐写文本。基于深度学习的方法能够通过特定的网络结构自动提取特征并以端到端的方式进行训练,与人工提取特征的方法相比,克服了引入先验知识带来的局限性从而实现了更好的检测效果。
相同训练语料库和相同隐写算法下生成的隐写文本属于同一个隐写域。生成式文本隐写方法生成隐写文本时,首先借助在大规模语料库下预训练好的语言模型获得生成候选词池,然后利用隐写算法来建立秘密信息比特流与候选词之间的映射关系,实现在保证生成文本自然度的同时嵌入秘密信息。在此过程中,当使用不同的训练语料库时生成的隐写文本会有较大差异,此外,采用不同的隐写算法也会给隐写文本带来不同。因此,隐写文本主要受训练语料库和隐写算法两个因素影响。现有基于深度学习的隐写分析方法大多需要满足两个前提条件:大量监督数据参与训练以及测试集与训练集属于同一个隐写域。当有监督数据量较少(少样本)或测试集与训练集属于不同隐写域(跨域)时,这些方法的检测性能将急剧下降。
发明内容
本发明的目的在于克服现有技术缺陷,提出了一种可跨语料库可跨算法的生成式文本隐写分析方法。
为了实现上述目的,本发明提出了一种可跨语料库可跨算法的生成式文本隐写分析方法,所述方法包括:
将文本片段输入预先建立和训练好的的文本隐写检测模型,实现对自然文本与隐写文本的判别;
所述文本隐写检测模型包括依次连接的词重要性语义编码模块、词间关联多尺度感知模块和岭回归分类模型;其中,
所述词重要性语义编码模块,用于提取文本片段的语义特征;
所述词间关联多尺度感知模块,用于从语义特征中获取词间关联特征;
所述岭回归分类模型,用于根据词间关联特征实现对自然文本与隐写文本的判别。
作为上述方法的一种改进,所述词重要性语义编码模块包括预训练语言表示模型RoBERTa和词重要度挖掘结构;其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所南海研究站;恒锋信息科技股份有限公司,未经中国科学院声学研究所南海研究站;恒锋信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310011465.6/2.html,转载请声明来源钻瓜专利网。