[发明专利]词级文本对抗样本检测方法在审
申请号: | 202111496214.9 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114169443A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 范铭;王晨旭;曹慧;魏闻英;陶俊杰;刘烃 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 对抗 样本 检测 方法 | ||
本发明公开了一种词级文本对抗样本的检测方法,为深度学习模型的文本对抗样本防御提供检测方法。本方法将对抗样本检测问题建模为二分类问题,分为两个步骤来检测对抗样本,首先利用对抗样本攻击算法产生相应正常样本的对抗样本,对正常和对抗样本分别抽取用于表征它们的特征向量。其次利用相应深度学习模型构建对抗样本检测二分类模型。通过以上方法,可以检测对于当前样本是否为当前模型的对抗样本。
技术领域
本发明涉及深度学习安全性问题领域,特别涉及一种词级文本对抗样本的检测方法。
背景技术
近年来,随着深度学习的迅速发展,尤其是各种神经网络模型被大规模部署在人脸识别、机器翻译、欺诈检测等实用系统之中,其安全性问题已经逐渐被学术界、工业界所认识到并且重视。对抗攻击指的是对目标机器学习模型的原输入施加轻微扰动以生成对抗样本来欺骗目标模型的过程。对抗攻击可以暴露深度学习模型的脆弱性,进而提高模型的鲁棒性和可解释性,在图像领域已经有广泛的研究。
在图像分类领域,对抗样本是有意合成的图像,它们看起来几乎与原始图像完全相同,但可能会误导分类器提供错误的预测输出。就文本领域而言,垃圾邮件检测、有害文本检测、恶意软件查杀等实用系统已经大规模部署了深度学习模型,安全性对于这些系统尤为重要。相比于图像领域,文本领域对抗攻击的防御研究还远远不够。文本领域的对抗攻击防御主要存在以下难点:
1)图像数据和文本数据的内在不同,用于图像领域的对抗防御方法无法直接应用于文本数据上;
2)图像数据的像素值是连续的,而文本数据是离散的,文本数据离散的特点使得对抗样本的生成和检测防御更具挑战;
3)对像素值进行微小的改变就可以造成图像数据的扰动,而且这种扰动是很难被人眼观察到的。但是对于文本的对抗攻击中,小的扰动很容易被察觉;
因此对抗样本的防御方法研究,有助于提高模型的鲁棒性和可解释性。
发明内容
本发明的内容在于提出一种词级文本对抗样本的检测方法,为深度学习模型的文本对抗样本防御提供了一种检测方法。本方法将对抗样本检测问题建模为二分类问题,具体分为四个步骤来检测对抗样本,首先基于现有训练数据集训练文本分类模型;其次基于现有攻击算法产生当前模型正常样本的对抗样本;再者对当前模型的正常和对抗样本分别抽取表征特征向量构建检测模型的训练数据集;最后根据上一步得到的数据集构建对抗样本检测二分类模型,基于其判别当前测试样本是否为对抗样本。
为了实现上述目的,本发明采用以下技术方案:
1)基于现有训练数据集D训练文本分类模型M,其中D={(xi,yi)},0iL,L为数据集D的长度,xi为D中的一条数据样本,yi为样本对应标签:
步骤S101:对于现有训练数据集D,选定一个神经网络文本分类模型,在该文本分类模型的Embedding层后面加入Self-Attention层;
步骤S102:基于上述神经网络结构训练得到文本分类模型M;
2)基于现有对抗样本攻击算法产生当前模型正常样本的对抗样本:
步骤S201:找出训练数据集中当前模型M预测正确的样本;
步骤S202:对找出的样本用现有的攻击算法攻击直到攻击成功,攻击成功指的是原先一条数据(xi,yi)在经过攻击后其标签相对原来发生了改变,即从yi变成了yi'且yi≠yi';
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111496214.9/2.html,转载请声明来源钻瓜专利网。