[发明专利]定向攻击对抗补丁生成方法及装置有效
申请号: | 202110646139.3 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113255816B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 蒋玲玲;罗娟娟 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 宋教花;薛海波 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 定向 攻击 对抗 补丁 生成 方法 装置 | ||
本发明提供一种定向攻击对抗补丁生成方法及装置,所述方法采用连续多个结构不同的白盒模型迭代更新对抗补丁,以使得到的目标通用对抗补丁能够对结构未知的黑盒模型更好的攻击效果。通过在引入三元组损失,能够在定向攻击的过程中提高输出目标类别的成功率。通过引入注意力转移损失,能够提升目标通用对抗补丁对模型关注区域的迁移效果,以极大提升目标通用对抗补丁的定向攻击效果。通过引入平滑损失,能够减小目标通用对抗补丁像素点之间的差距,不易引发人眼关注。进一步地,通过添加对抗补丁的方式,能够同时在物理层面和数字层面进行定向攻击,更便于实施。
定向攻击对抗补丁生成方法及装置
技术领域
本发明涉及人工智能安全技术领域,尤其涉及一种定向攻击对抗补丁生成方法及装置。
背景技术
深度神经网络(DNNs)的在图像分类、目标检测、文本分类和语音识别等领域取得了巨大的成就,已经被广泛应用于生产生活中。但是,近几年来研究表明,深度学习网络是脆弱的,容易受到对抗样本的影响。对抗样本通过对干净的样本进行修改扰动,以使得训练好的神经网路产生误分类或错误识别,从而无法完成目标任务。
对抗样本的存在具有两面性,一方面,对抗样本会攻击或者误导基于深度学习产生的应用,如汽车驾驶和人脸识别系统,从而造成潜在的安全威胁,可能造成经济损失或者人员伤亡。另一方面,对抗样本对深度神经网络的训练是有价值和有益的,利用对抗样本进行对抗训练,可有效增强深度神经网络的防御能力和鲁棒性。因此,对抗样本的研究对人工智能安全领域的发展具有重要提升作用。但现有技术中缺少针对结构未知的黑盒模型产生对抗补丁的方法,难以满足对黑盒模型攻击对抗和防御提升的应用需求。
发明内容
本发明实施例提供了一种定向攻击对抗补丁生成方法及装置,用于解决现有技术中,产生的对抗补丁忽略模型间共同关注的特征,对于模型关注区域的迁移能力弱,且对于结构不确定的黑盒模型进行定向攻击时成功率低的问题。
本发明的技术方案如下:
一方面,本发明提供一种定向攻击对抗补丁生成方法,包括:
获取与待攻击的黑盒模型任务相同的多个白盒模型,各白盒模型之间的模型结构和参数不同;
获取随机的初始化对抗补丁,并确定定向攻击的目标类别,在多个连续的迭代循环中分别采用各白盒模型对所述初始化对抗补丁进行更新迭代得到目标通用对抗补丁;其中,在先迭代循环的输出作为在后迭代循环的输入,每一个迭代循环包括:
获取多个未经扰动的干净图片,将各干净图片输入当前迭代循环对应的第一白盒模型,根据所述第一白盒模型的关注特征输出各干净图片对应的第一预测贡献权重矩阵和第一注意力关键区;
采用当前迭代循环输入的第一对抗补丁对各干净图片内的随机位置进行替换连接,得到各干净图片对应的对抗样本;
将所述目标类别添加为各对抗样本的标签后输入所述第一白盒模型,并采用预设损失函数计算联合损失,所述预设损失函数至少包括对抗损失、注意力转移损失、三元组损失和平滑损失,所述注意力转移损失根据各干净图片对应的第一预测贡献权重矩阵、第一注意力关键区以及连接所述第一对抗补丁时采用的随机位置计算得到;
根据所述联合损失值通过梯度下降法进行反向传播更新所述对抗补丁,重复迭代,将每一次迭代对应的对抗样本输入所述黑盒模型得到输出目标类别的第一置信度,当所述第一置信度大于预设置信度或迭代次数达到预设数值时停止迭代并输出当前第一对抗补丁。
在一些实施例中,所述预设损失函数为对抗损失、注意力转移损失、三元组损失和平滑损失的联合损失,计算式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110646139.3/2.html,转载请声明来源钻瓜专利网。