[发明专利]一种神经网络模型后门攻击检测方法有效
申请号: | 202110068380.2 | 申请日: | 2021-01-19 |
公开(公告)号: | CN112765607B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 江维;詹瑾瑜;温翔宇;周星志;宋子微;孙若旭;廖炘可;范翥峰 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06N3/08 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 模型 后门 攻击 检测 方法 | ||
1.一种神经网络模型后门攻击检测方法,其特征在于,包括以下步骤:
S1、收集神经网络运行时的输入数据:针对已经部署的神经网络模型,收集神经网络模型运行时的输入样本和对应的运行结果;
S2、控制门优化训练,得到每个图片以及每个类对应的最优控制门;
S3、关键神经元生成;
S4、计算基于关键路径的数值特征的指标;具体实现方法为:
S41、在计算得到一个类的关键神经元之后,连接所有属于这个类的关键神经元,得到属于这个类的关键路径;将所有类的关键路径拼接起来,即得到属于这个模型的关键路径;
S42、计算每个类对应的多个输入图片的关键路径在每层的协方差矩阵;
对于参与运算神经网络模型,共有L层,在一次运算中,按顺序选取其中一层计算某一层中关键路径的协方差矩阵,协方差矩阵表示多组数据之间的差异,用矩阵的形式表示:
表示计算第l层的两组关键路径数据之间的协方差,表示对应于第p组图片的关键路径的数据,表示对应于第q组图片的关键路径数据,K表示图片数据的总数;p=1,2,...,K,q=1,2,...,K,p≠q,1≤l≤L;
S43、计算对应于所有输入图片的关键路径在第l层的方差以及最终的在第l层的相关系数αl;
相关系数指标是对关键路径中的关键神经元中,激活频率低于既定阈值τ的神经元进行统计分析:
ci,j为矩阵Cl中第i行第j列元素,表示第l层对应的关键路径数据的标准差;αl表示对第l层的K张图片对应的关键路径进行相关系数计算;
S44、计算离散度;离散度指标是对关键路径中的关键神经元中激活频率高于80%的神经元进行统计分析;这些较高激活频率的神经元对应于输入图片中可能存在的触发器图案特征;首先要统计具有较高的激活频率的神经元的个数card(Ψhg),然后统计该层神经元的总数Nl,然后基于两个数值计算离散度:
S45、重复步骤S42~S44的操作,完成所有类的相关系数和离散度的计算;
S5、基于指标的异常指数计算,判断神经网络模型是否被后门攻击;具体实现方法为:
S51、将所有类的离散度和相关系数作为待定数据;
S52、遍历所有的类和模型的层,计算相关系数的均值和离散度的均值这两个均值作为后续计算相关系数和离散度的方差的基础;
S53、计算异常指数;异常指数需要基于相关系数和离散度两个指标进行计算,计算异常指数需要结合模型的所有层以及所有的类,综合这些参数,结合相关系数和离散度,计算得到待检测模型的异常指数为:
l表示当前神经网络模型的第l层,n表示当前神经网络模型的第n类,N表示神经网络模型的输出类别个数,L表示神经网络模型的总层数;
S53、如果待测定模型的异常指数AI大于阈值,则认为该模型受到攻击,反之则认为该模型是安全模型。
2.根据权利要求1所述的一种神经网络模型后门攻击检测方法,其特征在于,所述步骤S1具体实现方法为:
S11、对输入到神经网络模型的图片进行预处理,使其符合神经网络模型的输入标准;
S12、初始化计数器数值为0;
S13、将输入的图片放置到缓存区,并将其输入到神经网络模型中进行推断;在得到神经网络模型的运行结果之后,将输入图片和运行结果作为一个数据组;经过神经网络模型运行之后分类结果相同的图片为同一个类,将同一个类的图片收集并形成一个集合;
S14、将数据组进行保存,图片使用opencv直接保存,运行结果与图片的命名使用json格式保存,保证图片和结果一一对应;
S15、计数器数值加一,判断计数器是否满足设定的数据量要求,若是则结束收集,否则返回步骤S13。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110068380.2/1.html,转载请声明来源钻瓜专利网。