[发明专利]基于可解释性对抗文本的对抗训练方法在审

申请号：	201910729584.9	申请日：	2019-08-08
公开（公告）号：	CN110457701A	公开（公告）日：	2019-11-15
发明（设计）人：	张伟;陈谦;陈云芳	申请（专利权）人：	南京邮电大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/22;G06F16/35;G06N3/04;G06N3/08
代理公司：	32204 南京苏高专利商标事务所(普通合伙)	代理人：	吴静波<国际申请>=<国际公布>=<进入
地址：	210023江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本文本分类模型样本对抗过滤器拼写检查标签训练对抗训练样本生成原始分类攻击解释性拼写构建可读单词混淆中和防御检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了本发明是基于可解释性对抗文本的对抗训练方法；包括：(1)对输入的文本使用中和过滤器、去混淆过滤器和拼写检查进行处理，将所有的文本转为可读的文本，修改恶意拼写错误的单词；(2)构建文本分类模型，将经过拼写检查的输入和其对应的标签训练文本分类模型；(3)根据对抗样本生成的方法和初始的文本分类模型依次生成文本对抗样本；(4)利用生成的文本对抗样本和原始的样本，重新训练原始分类模型，得到可以防御对抗样本攻击的文本分类模型。利用本发明的方法，可以提高模型对恶意文本的检测效果，防止恶意文本的攻击。

技术领域

本发明公开了一种基于可解释性对抗文本的对抗训练方法。

背景技术

深度学习自从2006年提出以来，随着硬件计算能力的强大和数据量的与日俱增，其实用性和普及性都有了巨大的提升，已经在语音识别、图像处理、自然语言处理等领域获得了广泛的应用。深度模型可以拟合任意复杂函数并具有大量参数的特性，也具有极高的脆弱性，其伴生的安全问题主要有数据中毒攻击，模型反转攻击，隐私数据共享泄露和对抗样本攻击等。其中，对抗样本攻击目前受到了研究者广泛的关注。

对抗样本的概念首先在2014年由Szegedy等人所提出，他们发现包括卷积神经网络在内的深度学习模型对于对抗样本都具有极高的脆弱性，通过在输入数据添加不可察觉的扰动并导致模型以非常高的置信度分类错误，即对抗样本。目前，虽然对于对抗样本的研究主要集中在图像处理领域，但是其他领域也越来越受到重视，特别是自然语言处理方面的对抗样本。随着人工智能从感知智能向认知智能升级，机器被越来越多的要求完成自动文本分类、自动文本编写等任务，因此，自然语言处理的重要性日益凸显，其存在的安全隐患也值得我们的关注。

与传统的图像的输入是连续的不同，文本的输入是离散的。向图像的像素添加较小的扰动时，所产生的变化可能很难被人类观察者所识别。而对文本添加少量的扰动，会使字符或者单词变成一个完全不相同的字符和单词，以至于直接改变所识别的语句，在针对Google Perspective API的攻击中，可以通过对一个单词添加某个字符(如将idiot替换成idiiot)或者通过反转整个句子的极性(如添加NOT这个单词)来降低系统给出的恶意评分。除了上述的两种黑盒攻击方式，还有一部分的对抗样本通过白盒攻击产生。攻击者通过获取分类模型的梯度信息，在词嵌入层对原始文本添加扰动来生成不易被察觉的文本对抗样本。

因此，为了解决上述问题，提高模型对文本对抗样本的防御能力，本发明提出了基于可解释性对抗文本的对抗训练方法，首先使用去混淆滤波器和中和滤波器来防御黑盒攻击，去除不可解释的文本；接着通过精心设计的可以迷惑人类观察者的可解释性对抗样本来进行对抗训练，以此防御白盒攻击。

发明内容

发明目的：为了克服现有技术的不足，本发明提供基于可解释性对抗文本的对抗训练方法。

技术方案：本发明提供一种基于可解释性文本的对抗训练方法，所述方法包括以下步骤：

(1)使用python的开源PyEnchant包根据字典树对单词进行拼写检查，将输入的文本转为可读的文本；

(2)将进过拼写检查的单词，进行词向量的训练，将离散的文本转为连续的词向量表示；

(3)构建文本分类模型，根据文本对应的词向量输入和其对应的标签训练文本分类模型；

(4)根据对抗样本生成的方法和初始的文本分类模型依次生成文本对抗样本；

(5)利用生成的文本对抗样本和原始的样本，重新训练原始分类模型，得到可防御对抗样本攻击的文本分类模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】