[发明专利]一种基于梯度先验的高效黑盒对抗攻击方法在审
申请号: | 202210639043.9 | 申请日: | 2022-06-08 |
公开(公告)号: | CN115034363A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 刘晗;黄星朔;张晓彤;张宪超 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06V10/74;G06V10/764;G06V10/82 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 许明章;王海波 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 梯度 先验 高效 黑盒 对抗 攻击 方法 | ||
本发明属于深度学习的对抗样本领域,提出了一种基于梯度先验的高效黑盒对抗攻击方法,该方法建立在基于决策的边界攻击方法之上;为了解决边缘梯度差异问题,通过联合双边滤波器利用数据相关的先验,保留了具有相似像素值的在空间接近的像素点梯度相似的优势,而且还使具有不同值的像素的梯度多样化。针对连续迭代梯度方向问题,同时将连续对抗样本之间的距离和连续步骤的梯度方向作为附加判断条件,生成新的梯度方向,然后与基于决策的攻击方法相结合。本发明具有更少的对目标模型的查询次数,能够对现有的深度学习模型造成更大威胁,从而推动业界开发出更加安全的神经网络架构。
技术领域
本发明涉及深度学习的对抗样本领域,尤其涉及一种基于梯度先验的高效黑盒对抗攻击方法。
背景技术
深度神经网络在图像分类、目标检测和语音识别等各种任务上都取得了很大的成功。然而,最近的研究表明,神经网络在面对对抗例子时非常脆弱,这些例子在人类感知中与自然数据几乎无法区分,但被模型错误地分类。这种现象在许多实际应用中可能会造成很大的风险,如垃圾邮件检测、自动驾驶等。研究对抗性例子背后的生成原理似乎是一种有希望提高神经网络的鲁棒性的方法,这激发了对抗性攻击的研究。根据受害者模型的可访问性,对抗性攻击可以分为白盒攻击和黑盒攻击。对于白盒攻击(如Ian J.Goodfellow,Jonathon Shlens,and Christian Szegedy.2015.Explaining and HarnessingAdversarial Examples.In International Conference on Learning Representations(ICLR)),假设攻击者对目标模型有充分的了解,包括训练数据、模型结构和参数。因此,很容易利用梯度信息引导这些方法生成对抗实例。然而,这种攻击在实际应用场景中难以实现,因为大多数模型开发人员不会公开发布所有的模型和数据信息,想要进行白盒攻击必须对模型进行逆向工程,而对于部署在云端的模型,想要攻破层层防护更是难上加难。与白盒攻击不同,黑盒攻击更实用,它只需要攻击者访问目标模型的极其有限的知识,如预测标签。
现有的黑盒攻击主要有基于迁移的方法(如Mingyi Zhou,Jing Wu,Yipeng Liu,Shuaicheng Liu,and Ce Zhu.2020.DaST:Data-Free Substitute Training forAdversarial Attacks.In IEEE Conference on Computer Vision and PatternRecognition(CVPR).231–240)、基于分数的方法(如Andrew Ilyas,Logan Engstrom,andAleksander Madry.2019.Prior Convictions:Black-box Adversarial Attacks withBandits and Priors.In International Conference on Learning Representations(ICLR))和基于决策的方法(如Jianbo Chen,Michael I.Jordan,and Martin J.Wainwright.2020.HopSkipJumpAttack:A|Query-Efficient Decision-Based Attack.In IEEESymposium on Security and Privacy(SP).1277–1294)。
基于迁移的方法来源于一个有趣的现象,即能够攻击一个模型的对抗样本也更容易成为其它模型的对抗样本,即对抗样本的可迁移性现象。这类方法一般是训练一个代理模型来模仿目标模型的行为,然后对其进行白盒攻击。此类攻击的优点是在训练好代理模型后,不需要对目标模型进行大量查询就能生成对抗样本。然而,这类攻击往往需要大量的训练数据,这些训练数据与用于训练目标模型的数据相似,这在实践中过于理想而难以实现;而且即便使用大量数据训练出了代理模型,攻击成功率也往往很低。
基于分数的攻击通常假设攻击者可以访问预测分数(例如分类为各个类别的概率分布),这对于现实世界的应用程序也是不切实际的,因为它们可能只提供预测的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210639043.9/2.html,转载请声明来源钻瓜专利网。