[发明专利]基于对抗样本的抗成员推理攻击的AI模型隐私保护方法在审
申请号: | 201910654693.9 | 申请日: | 2019-07-19 |
公开(公告)号: | CN110516812A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 吴至禹;薛明富;刘雨薇;刘雯霞 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N5/04 |
代理公司: | 32204 南京苏高专利商标事务所(普通合伙) | 代理人: | 康燕文<国际申请>=<国际公布>=<进入 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标模型 推理模型 标签向量 输出 样本 对抗 预测 防御方式 概率输出 交互训练 训练目标 隐私保护 符号法 热编码 热标签 再利用 扰动 推理 向量 收敛 攻击 转换 | ||
本发明公开了一种基于对抗样本的抗成员推理攻击的AI模型隐私保护方法,包括如下步骤:(1)用普通方式训练目标模型;(2)通过与目标模型交互训练的方式得到训练好的成员推理模型;(3)当目标模型接收到输入时,将目标模型输出的预测标签向量和该预测标签向量经过独热编码转换后的独热标签向量输入到训练好的成员推理模型中,再利用成员推理模型的输出使用快速梯度符号法对目标模型输出的预测标签向量进行扰动,构造出针对成员推理模型的对抗样本;(4)目标模型以50%的概率输出对抗样本,否则保持原输出不变。本发明消除了传统防御方式所带来的梯度不稳定、训练时间长、收敛速度慢等问题。
技术领域
本发明属于计算机信息安全、人工智能安全领域,具体涉及一种基于对抗样本的抗成员推理攻击的AI模型隐私保护方法。
背景技术
当今,机器学习模型已被广泛应用于图像处理、自然语言处理、音频识别、无人驾驶汽车、智慧医疗、数据分析等各类领域。以数据分析领域为例,许多企业都在使用机器学习模型来分析其大规模的用户数据,或者把训练的机器学习模型发布在互联网上为他人提供服务。用户可以用自身的数据来对模型进行查询,即将数据输入模型来观察模型的输出。同时,一些企业(如Google、Microsoft等)也提供了机器学习服务平台(Machine learningas a service)。数据的持有者可以通过这种平台来训练自己的机器学习模型,也可以以黑盒的形式公布训练完成后的模型。他人能使用平台提供的API对模型进行查询,但对模型的内部参数一无所知。这种作为服务平台的机器学习模型往往需要在大规模的数据上进行训练才能得到,而这些训练数据中可能会涉及到许多用户的隐私数据,如:患病记录、照片或生活习惯等。
在现实的场景中,攻击者可以通过对模型进行查询来判定一条给定的数据是否属于该机器学习模型的训练集数据集,这种隐私窃取的方式被称为成员推理攻击。假设攻击者拥有一定的背景知识,他可以通过比较目标模型对给定数据的输出和对不属于训练集的数据的输出的差异来判断该给定数据是否属于目标模型的训练集。一个过拟合的机器学习模型(在训练集上具有很高的准确率,但是在测试集上的准确率却很低)对属于训练集的数据的输出和不属于训练集的数据的输出差异十分明显,这便给了攻击者窃取数据隐私提供了可乘之机。
现有的成员推理攻击的防御方法大多是在目标模型的训练过程中添加防御措施。例如对抗正则化,这种方法是防御者在训练目标模型时,让目标模型与成员推理模型交互训练,训练过程中既要提高目标模型对成员推理模型的防御能力,也要减小成员推理模型的推理准确率。但是这种方法的缺点在于修改目标模型的损失函数改变了目标模型的训练过程,使得目标模型的训练不易收敛,且对训练完成后目标模型的性能造成了较大的影响。同时,与成员推理模型的交互训练加长了目标模型的训练时间。
发明内容
发明目的:本发明的目的是提供一种基于对抗样本的抗成员推理攻击的AI模型隐私保护方法。
发明内容:本发明所述的一种基于对抗样本的抗成员推理攻击的AI模型隐私保护方法,包括以下步骤:
(1)用普通无防御方式训练目标模型;
(2)将成员推理模型与目标模型进行交互训练得到训练好的成员推理模型;训练成员推理模型的方式为,将数据输入到目标模型中得到目标模型输出的预测标签向量,将目标模型输出的预测标量向量和数据原始标签输入到成员推理模型中得到成员推理模型的输出,以梯度下降的方式调整成员推理模型的参数,迭代训练成员推理模型直到达到设置的迭代步数为止;
(3)当目标模型接收到数据输入时,将目标模型输出的预测标签向量和该预测标签向量经过独热编码转换后的独热标签输入到步骤(2)训练好的成员推理模型中,再利用成员推理模型的输出使用快速梯度符号法对目标模型输出的预测标签向量进行扰动,即构造出针对成员推理模型的对抗样本;以50%的概率将对抗样本作为目标模型的最终输出,否则保持原输出不变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910654693.9/2.html,转载请声明来源钻瓜专利网。