[发明专利]基于差分隐私的深度强化学习模型安全加固方法及装置在审
申请号: | 202110766183.8 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113360917A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 陈晋音;王雪柯;胡书隆;章燕 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F21/57 | 分类号: | G06F21/57;G06F21/62;G06K9/62 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 隐私 深度 强化 学习 模型 安全 加固 方法 装置 | ||
1.一种基于差分隐私的深度强化学习模型安全加固方法,其特征在于,所述方法包括如下步骤:
从环境中采样数据作为待训练样本集,利用深度强化学习算法构建目标模型,将待训练样本集输入到目标模型中对目标模型进行训练;
对训练好的目标模型进行测试,并采样状态动作作为窃取数据集;
利用深度强化学习算法构建窃取模型,所述窃取模型用于模拟攻击目标模型的攻击动作;
将窃取数据集作为训练样本输入到窃取模型中并利用模仿学习算法训练窃取模型;
将差分隐私保护机制添加到训练好的目标模型中,将目标模型在差分隐私机制的作用下输出的数据输入到窃取模型中;
窃取模型在有差分隐私机制作用的数据的影响下作出错误的攻击动作。
2.根据权利要求1所述的基于差分隐私的深度强化学习模型安全加固方法,其特征在于,对目标模型的训练包括如下步骤:
使用经验回放机制,在线收集并处理得到在线样本集;
将在线样本集和待训练样本集储存到回放记忆单元中形成转移样本;
每次训练时,从转移样本中随机抽取转移样本输入到当前值网络得到当前Q值,并在训练过程中使用随机梯度下降算法更新参数;
将当前值网络的参数复制给目标值网络得到当前Q值的优化目标,即目标Q值;
通过最小化当前Q值和目标Q值之间的均方误差对网络参数进行更新;
深度强化学习算法将奖赏值和误差项缩小到有限区间内,通过梯度下降优化得到最优策略。
3.根据权利要求2所述的基于差分隐私的深度强化学习模型安全加固方法,其特征在于,当前Q值与误差Q值间的误差函数如下:
对参数θ求偏导,得到以下梯度:
其中,s是当前状态,a是对应动作,s′是下一状态,θi是模型参数,E表示期望,Yi表示期望Q值,Q(s,a|θi)表示状态s和动作a的奖励值。
4.根据权利要求2所述的基于差分隐私的深度强化学习模型安全加固方法,其特征在于,所述最优策略如下:
其中,s是当前状态,a是对应动作,A动作集合,Q*是最优值函数,π*是最优策略。
5.根据权利要求1所述的基于差分隐私的深度强化学习模型安全加固方法,对窃取模型的训练包括如下步骤:
利用Actor网络代替生成器G,将其输出的动作与状态成对输入到判别器中与专家数据进行对比,并将判别器D:S×A→(0,1)的输出作为奖励值用来指导模仿学习的策略学习,判别器损失函数表示为:
其中,πIL表示模仿学习得到的策略,πt表示采样的专家策略,第一项中的logD(s,a)表示判别器对真实数据的判断,第二项log(1-D(s,a))则表示对生成数据的判断;
训练过程中,通过梯度求导来最小化损失函数从而反向更新判别器和Actor网络参数,其损失函数如下:
其中,是模仿策略πIL的熵,由常数λ(λ≥0)控制,作为损失函数中的策略正则项;
利用训练好的窃取模型生成对抗样本攻击目标模型。
6.根据权利要求1所述的基于差分隐私的深度强化学习模型安全加固方法,其特征在于:所述差分隐私机制表示如下:
其中,是均值为0,方差为高斯分布,一个单一应用的高斯机制敏感度函数fdy满足ε<1,f(dse)表示输入序列dse的敏感度;
将差分隐私机制加入到目标模型中间层。
7.一种基于差分隐私的深度强化学习模型安全加固装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于:所述计算机处理器执行所述计算机程序时实现权利要求1-6任一项所述的基于差分隐私的深度强化学习模型安全加固方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110766183.8/1.html,转载请声明来源钻瓜专利网。