[发明专利]基于时序神经通路的深度强化学习模型中毒检测方法及其装置在审
申请号: | 202110648356.6 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113313236A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 陈晋音;王雪柯;章燕;胡书隆 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F21/56 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时序 神经 通路 深度 强化 学习 模型 中毒 检测 方法 及其 装置 | ||
1.一种基于时序神经通路的深度强化学习模型中毒检测方法,其特征在于,包括以下步骤:
获取深度学习样本数据;
定义深度强化学习的时序神经通路,并依据时序神经通过定义构建包含卷积层和池化层的第一部分、包含全连接层的第二部分的深度强化学习模型的时序神经通路,具体过程为:通过多次查找得到第一部分的Top-c神经元,该Top-c神经元与第二部分的所有神经元投入神经元池,依据神经元池构建深度强化学习的时序神经通路;
将样本数据输入至深度强化学习模型中,利用构建的时序神经通路的反向传播生成扰动,将扰动添加到输入样本得到中毒样本;
将中毒样本输入至深度强化学习模型,依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒。
2.如权利要求1所述的基于时序神经通路的深度强化学习模型中毒检测方法,其特征在于,查找第一部分的Top-c神经元的过程为:
将样本数据输入至深度强化学习中,提取第一部分的嵌入特征图,从嵌入特征图中激活值最大的Top-c神经元进行累加,构成损失函数,依据损失函数优化深度强化学习模型的网络参数,经过多次迭代,提取激活值最大的Top-c神经元以及对应的权重值投入神经元池。
3.如权利要求1所述的基于时序神经通路的深度强化学习模型中毒检测方法,其特征在于,依据神经元池构建深度强化学习的时序神经通路包括:依据输入样本在每个神经元的激活值,筛选激活值最大的c个神经元,构建深度强化学习的时序神经通路,此处的输入样本为中毒样本。
4.如权利要求1所述的基于时序神经通路的深度强化学习模型中毒检测方法,其特征在于,中毒样本的生成过程为:
利用深度强化学习的时序神经通路构建损失函数,通过对损失函数梯度上升作为扰动导向,对输入样本的像素值进行改变,得到中毒样本。
5.如权利要求1或4所述的基于时序神经通路的深度强化学习模型中毒检测方法,其特征在于,在生成中毒样本的过程中,控制原始样本和中毒样本的后续序列状态之间的神经元激活状态在阈值范围内。
6.如权利要求1所述的基于时序神经通路的深度强化学习模型中毒检测方法,其特征在于,所述依据深度强化学习模型的决策动作变化检测深度强化学习模型是否中毒包括:
通过统计动作变化率证明模型是否中毒,动作变化计算公式如下:
其中,T是选择的测试状态集合,F(s′i_0)是在还原中毒状态s′i_0下深度强化学习模型的输出动作,si_0是第i个原状态,Δfeature是选定原状态si_0的后续序列状态以及还原中毒状态s′i_0后神经元变换量,ζ是神经元变化上限阈值,若动作变化δ(T)大于α则表明深度强化学习模型被中毒,否则没被中毒。
7.一种基于时序神经通路的深度强化学习模型中毒检测装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器执行所述计算机程序时实现权利要求1~6任一项所述的基于时序神经通路的深度强化学习模型中毒检测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110648356.6/1.html,转载请声明来源钻瓜专利网。