[发明专利]一种基于贝叶斯优化的对抗样本生成方法有效
申请号: | 201910414533.7 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110276377B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 刘林兴;冯建文 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06F21/55 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贝叶斯 优化 对抗 样本 生成 方法 | ||
本发明公布了一种基于贝叶斯优化的对抗样本生成方法,现有的黑盒攻击方法需要通过大量地向模型进行查询来获取优化信息。本发明以原始图片作为输入,通过计算扰动图片与原始图片的结构相似度的梯度来确定待优化的位置;然后使用贝叶斯优化在选定的位置中进行采样优化,得到该位置上能使损失函数增加的扰动值;通过迭代的方式选择多个位置,并优化得到扰动值,直到改变被扰动图像的分类结果,或者达到最大迭代次数则停止。本发明能够有效降低查询向目标DNN模型查询的次数,且扰动像素点的数量较少。
技术领域
本发明属于计算机数字图像处理领域,具体涉及一种对抗样本生成方法。
背景技术
深度学习在解决过去难以解决的复杂问题方面取得了重大突破,例如,在重建脑回路、分析DNA中的突变、预测潜在药物分子的活性结构、分析粒子加速器数据等问题上都有应用。深度神经网络(Deep Neural Network,DNN)也成为解决语音识别和自然语言理解中等许多具有挑战性的任务的首选方法。
虽然DNN以惊人的精度执行各种计算机视觉任务,但DNN却极易受到对抗攻击的影响,这种攻击的形式是在图像中添加对人类视觉系统来说几乎不可察觉的微小图像扰动。这种攻击可以使DNN分类器完全改变其关于图像的预测,受到攻击的模型对错误的预测高度信任。而且,相同的图像扰动可以欺骗多个神经网络分类器。这种可以改变 DNN分类器预测结果的被扰动图片被称为对抗样本。
目前生成对抗样本的方法大致可以分为两类:白盒攻击与黑盒攻击。白盒攻击假设已有目标模型的所有知识,包括它的参数值、架构、训练方法等,甚至目标模型的训练数据都是可知的,利用这些知识生成对抗样本来欺骗目标模型。例如,FGSM计算目标模型的梯度信息,在每个像素值上添加一个相同大小的小扰动构建对抗样本,JSMA计算模型的前向导数,扰动有限数量像素点的构建对抗样本。白盒攻击的优势在于计算速度比较快,但是需要用到目标网络的梯度信息。黑盒攻击方法无需利用网络的梯度及参数知识,通过向目标模型输入对抗样本查询其输出的预测标签,利用这些信息生成对抗样本来欺骗目标模型。例如,One Pixel Attack方法使用差分进化的概念,观测目标模型的预测概率标签生成对抗样本,仅仅改变一个像素点就能误导目标网络,Boundary Attacks方法则仅仅利用网络的分类输出结果即可生成对抗样本。然而,由于缺乏梯度信息,带来了高额的评估代价,比如One Pixel Attacks方法需要3万次评估,而Boundary Attacks方法则需要百万次评估。
发明内容
本发明的主要目的是针对现有的黑盒攻击方法带来大量查询开销的问题,提出一种基于贝叶斯优化生成对抗样本的黑盒攻击方法。本方法使用贝叶斯优化在解空间中进行搜索,迭代地在解空间中找到一个特定的扰动,该扰动添加到原图片之后,可以改变分类器对被扰动图像的分类结果。
本发明所使用的黑盒攻击方法包括如下步骤:
步骤一、获取原始图像x的真实类别yc及其概率Mc
以原始图像x作为以θ为参数的目标DNN分类器的输入,获得原始图像的概率输出向量M(x;θ);取概率输出向量中最大值对应的类别作为原始图像的类别预测yc,概率输出向量中最大值为Mc;
步骤二、确定待优化的目标函数
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910414533.7/2.html,转载请声明来源钻瓜专利网。