[发明专利]一种基于特征失真指数的模型窃取防御方法及装置在审
申请号: | 202211524887.5 | 申请日: | 2022-11-30 |
公开(公告)号: | CN115859102A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 姚宏伟;任奎;秦湛;王志波;屠春来;牛文杰 | 申请(专利权)人: | 浙江大学嘉兴研究院 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06N3/08;G06N3/0464 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 314031 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 失真 指数 模型 窃取 防御 方法 装置 | ||
本发明公开了一种基于特征失真指数的模型窃取防御方法及装置,该方法包括:从目标DNN模型中选择每个类别预测置信度最高的K个数据作为锚定样本;计算每个待检测样本和锚定样本之间的特征空间距离以得到特征失真指数;利用所述特征失真指数训练模型窃取攻击检测器;将训练后的模型窃取攻击检测器布置到MLaaS中,以进行模型窃取防御。本申请针对攻击者为了从MLaaS平台的目标DNN模型中获取更多模型信息,通常需要探索大量的输入空间以增加窃取查询的多样性,来训练准确率更高的替代模型,因此攻击者的查询在特征层输出上的分布偏离良性的训练样本特征的这一现象,提出一种衡量被检测样本特征偏差的指标,即特征失真指数FDI,有效检测模型窃取攻击。
技术领域
本发明属于神经网络安全技术领域,尤其涉及一种基于特征失真指数的模型窃取防御方法及装置。
背景技术
随着深度神经网络性能的显着提高,深度神经网络模型广泛应用于许多领域,如图像识别、自然语言处理和图处理等。训练一个高性能、高鲁棒性的模型需要大量的训练数据和计算资源,普通用户很难建立自己的私有模型。许多开发人员将深度神经网络模型部署到云服务商(CSP),以使用机器学习即服务(MLaaS)技术提供在线服务(Zhang,H.,Li,Y.,Huang,Y.,Wen,Y.,Yin,J.,and Guan,K.2020.Mlmodelci:An automatic cloud platformfor effificient mlaas.In Proceedings of the 28th ACM International Conferenceon Multimedia,4453-4456.)。在MLaaS中,只有CSP才能访问模型的参数和体系结构,终端用户只允许通过公共API查询模型以接收预测结果。
虽然基于云的模型对终端用户来说似乎是一个黑盒,但恶意客户端仍然可以与黑盒模型交互,并通过输入输出对模仿其行为,导致模型隐私泄漏。根据最近的研究结果显示(Shen,Y.,He,X.,Han,Y.,and Zhang,Y.2022.Model Stealing Attacks AgainstInductive Graph Neural Networks.In SP 2022-43rd IEEE Symposium on Securityand Privacy,1-22.San Francisco,United States:IEEE.)(Sha,Z.,He,X.,Yu,N.,Backes,M.,and Zhang,Y.2022.Can’t steal?cont-steal!contrastivestealing attacksagainst image encoders.arXiv preprint arXiv:2201.07513.)(Krishna,K.,Tomar,G.S.,Parikh,A.P.,Papernot,N.,and Iyyer,M.Thieves on sesame street!modelextraction of bert-based apis.In 8th International Conference on LearningRepresentations,ICLR 2020,Addis Ababa,Ethiopia,April 26-30,2020.),攻击者可以通过查询MLaaS来发起模型提取攻击,模拟深度神经网络的模型的行为,创建一个克隆模型。此外,通过利用窃取的代理模型,对手可以在黑盒设置下发起其他攻击(例如,成员推理攻击(Shokri,R.,Stronati,M.,Song,C.,and Shmatikov,V.2017.Membership inferenceattacks against machine learning models.In 2017IEEE Symposium on Security andPrivacy,3-18.IEEE.)、对抗样本攻击(Papernot,N.,McDaniel,P.,Goodfellow,I.,Jha,S.,Celik,Z.B.,and Swami,A.2017.Practical black-box attacks against machinelearning.In Proceedings of the 2017ACM on Asia conference on computer andcommunications security,506-519.)(Wang,W.,Yin,B.,Yao,T.,Zhang,L.,Fu,Y.,Ding,S.,Li,J.,Huang,F.,and Xue,X.2021.Delving into data:Effectively substitutetraining for black-box attack.In Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,4761-4770.)(Ma,C.,Chen,L.,and Yong,J.H.2021.Simulating unknown target models for query-effificient black-boxattacks.In Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition,11835-11844.)和模型解释(Bastani,O.,Kim,C.,and Bastani,H.2017.Interpreting blackbox models via model extraction.arXiv preprintarXiv:1705.08504.)(Kazhdan,D.,Dimanov,B.,Jamnik,M.,and Liò,P.2020.Meme:generating rnn model explanations via model extraction.arXiv preprint arXiv:2012.06954.))。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学嘉兴研究院,未经浙江大学嘉兴研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211524887.5/2.html,转载请声明来源钻瓜专利网。