[发明专利]一种基于几何向量的对抗样本生成方法有效
申请号: | 202010084341.7 | 申请日: | 2020-02-10 |
公开(公告)号: | CN111340066B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 刘启和;王媛媛;周世杰;谭浩 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 夏琴 |
地址: | 611731 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 几何 向量 对抗 样本 生成 方法 | ||
本发明公开了一种基于几何向量的对抗样本生成方法,包括:步骤1,数据预处理;步骤2,模型预训练;步骤3,重复步骤(a)‑(f),直到收敛,得到DGA域名对抗样本:(a)将合法域名输入ATN网络生成合法域名对抗样本,并得到扰动损失;(b)将合法域名和以及合法域名对抗样本输入噪声扰动方向函数得到噪声;(c)将噪声和DGA域名输入扰动网络得到DGA域名对抗样本;所述扰动网络为基于几何向量的扰动网络;(d)将DGA域名对抗样本输入目标网络,得到目标网络损失;(e)利用扰动损失和目标网络损失得到目标损失函数;(f)通过最小化目标损失函数更新ATN网络。本发明可以针对特定DGA类别生成其对抗样本。
技术领域
本发明涉及机器学习技术领域,尤其是一种基于几何向量的对抗样本生成方法。
背景技术
深度神经网络在处理复杂的任务方面表现的十分优秀,但是最近的研究表明,它容易受到对抗性攻击,这种攻击形式是对输入添加微小的扰动,从而导致模型预测错误的输出。在实际应用中,对抗攻击对深度学习的成功构成了严重的威胁。为此研究者提出对抗性样本产生方法,以应对潜在的攻击,增强神经网络的鲁棒性及泛化能力。
目前,在对抗样本产生的原理上,主要分为两大类,一类是在原始样本上随机添加噪声,直到其能欺骗神经网络为止,二是在梯度信息的方向(如Fast Gradient SignMethod(FGSM)、Jacobian-based saliency map approach(JSMA))上添加扰动,以生成对抗样本。实验证明,在特定的扰动方向上修改样本,具有较好的效果。但是这些方法存在以下问题:不是针对原始样本的任何扰动都会引起分类错误,只有经过特定扰动才会引起分类错误,因此通过随机添加噪声,不容易得到对抗样本。虽然梯度信息给了扰动方向,但对于高维数据和更加复杂的神经网络模型,会增加建立梯度信息的复杂度。现有的对抗样本生成方法没有考虑到生成样本的代价及效率。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种基于几何向量的对抗样本生成方法。
本发明采用的技术方案如下:
一种基于几何向量的对抗样本生成方法,包括如下步骤:
步骤1,对合法域名数据集和DGA域名数据集进行数据预处理;
步骤2,在数据预处理后进行模型预训练:初始化ATN网络的生成网络和目标网络,使生成网络在合法域名数据集上预训练,目标网络在合法域名数据集和DGA域名数据集上预训练;
步骤3,重复步骤(a)-(f),直到收敛,得到DGA域名对抗样本:
(a)将合法域名输入ATN网络生成合法域名对抗样本,并得到扰动损失;
(b)将合法域名和以及合法域名对抗样本输入噪声扰动方向函数得到噪声;
(c)将噪声和DGA域名输入扰动网络得到DGA域名对抗样本;所述扰动网络为基于几何向量的扰动网络;
(d)将DGA域名对抗样本输入目标网络,得到目标网络损失;
(e)利用扰动损失和目标网络损失得到目标损失函数;
(f)通过最小化目标损失函数更新ATN网络。
进一步,步骤1的方法为:
步骤1.1,对合法域名数据集和DGA域名数据集中的域名数据建立字符字典,并通过one-hot编码,得到编码后的合法域名数据向量和DGA域名数据向量;
步骤1.2,对合法域名数据集和DGA域名数据集中的域名数据以数据长度最长为准,对不足长度的域名数据进行数字0填充。
进一步,步骤2中,生成网络使用极大似然估计在合法域名数据集上预训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010084341.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:测量方法和系统
- 下一篇:时间同步方法、装置、设备及存储介质