[发明专利]针对深度神经网络对抗样本的对抗噪声去除方法及系统在审
申请号: | 202111252920.9 | 申请日: | 2021-10-27 |
公开(公告)号: | CN113963213A | 公开(公告)日: | 2022-01-21 |
发明(设计)人: | 杨杰;李佳文 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82;G06V10/30;G06N3/04;G06N3/08;G06T5/00 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 徐红银;张琳 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 深度 神经网络 对抗 样本 噪声 去除 方法 系统 | ||
本发明提供一种针对深度神经网络对抗样本的对抗噪声去除方法,属于图像处理领域。其包括:利用干净图像样本进行端到端训练,获得条件变分自编码器与分类器;将待去噪的对抗图像输入至所述条件变分自编码器和分类器,获得所述对抗图像的去噪样本与类别。本发明通过去除对抗图像样本中的噪声,可以提升模型针对对抗图像样本的鲁棒性,经过去除对抗噪声的图像样本特征明显,可以正确分类,同样提高了后续任务的可靠性与安全性。
技术领域
本发明属于图像处理领域,具体涉及的是一种针对深度神经网络对抗样本的对抗噪声去除方法及系统。
背景技术
对抗样本(Adversarial Examples)是一种广泛存在于各种深度神经网络中的典型缺陷。近年来,深度神经网络已经在多个机器学习领域取得了显著的效果,如自动驾驶、目标检测、目标分类、医学影像辅助诊断等等。深度神经网络取得发展的重要原因是神经网络具有强大的拟合能力,可以轻松拟合任意非线性函数。但2014年开始,人们发现一种特定的人为制造的图像样本,人眼几乎无法识别该样本与原始图像样本,但能让深度神经网络做出相差甚远甚至完全相反的预测。如在自动驾驶领域中,人们可以将一个“STOP”标识做像素级别的修改,使得人眼无法区分修改后的标识与原有“STOP”标识,但却会让自动驾驶模型中的识别分类部分将该标识判断为“Turn Left”甚至“Speed Up”,很可能造成严重的交通事故。此类容易使得深度神经网络做出错误预测的人造样本称为对抗样本(Adversarial Examples),产生此类样本的过程称为对抗攻击(Adversarial Attack)。由于对抗样本具有人眼难以分辨的特性,仅仅通过手动去除对抗样本难度较大,且面临高昂的人工成本,故提高神经网络模型针对对抗样本的鲁棒性具有广阔的发展前景和重要的实际意义,在学术研究中提高神经网络模型的鲁棒性技术称为对抗防御(AdversarialDefense)。
目前,针对神经网络的对抗攻击方法多种多样,包括黑盒攻击、灰盒攻击和白盒攻击三种攻击类型。其中白盒攻击,攻击者可以获取模型的所有参数、梯度和输入输出等其他信息。类似地,灰盒攻击中攻击者仅能获得模型中部分参数,黑盒攻击中攻击者对模型参数完全未知,仅能有限次地访问模型,获得有限个输入与对应的输出。这些攻击方法多基于模型的梯度,故在对抗防御中模型的梯度也成为可利用的重要信息。
目前针对神经网络分类模型的对抗防御主要可以分成三类:1)对抗训练2)基于生成模型去除对抗噪声3)模型融合。
基于对抗训练的对抗防御方法是基于数据增强的思想,在利用干净图像样本训练模型的同时对模型进行对抗攻击产生对抗图像样本,使用的攻击方法可以不止一种,再利用这些对抗图像样本训练模型,相当于将对抗图像样本加入训练集中,该方法可以有效增强模型针对对抗图像样本的鲁棒性,缺点在于需要的计算成本高,速度较慢,且对于未加入训练集的对抗攻击方法产生的对抗图像样本依旧无法防御。
基于生成模型去除对抗噪声方法重点在于利用生成模型对对抗图像样本进行重建,期望重建过程中能够去除对抗噪声。该方法使用的生成模型包括生成对抗网络,变分自编码器,普通编码器等等,往往在生成模型后接入分类器,有分开训练与联合训练等训练方法。其中联合训练方法中,分类器可以帮助生成模型部分学习分类的决策边界,确保生成模型重建后的样本可用于分类。比较有名的方法有2017年Meng等人提出的Magnet,2018年Samangouei等人提出的defense-GAN等等。目前的基于生成模型的方法基本只利用分类器产生对抗样本,而攻击者无法获得有关防御机制的信息,如生成模型的结构、梯度等等,也称为“灰盒攻击”。
基于模型融合的对抗防御目的在于同时训练多个分类模型,测试过程利用多种方式融合训练好的模型,如投票法、平均法、加权平均等等。攻击者在攻击过程中需要同时攻击成功多个分类模型才能达到理想的攻击效果。比较有名的方法有2020年Bian等人提出的self-orthogonal randomization super-network方法。这类方法在训练时需要同时训练多个模型,因此训练时间依然很长,计算复杂度很高。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111252920.9/2.html,转载请声明来源钻瓜专利网。