[发明专利]基于不可学习噪声生成器的数据保护方法、设备、介质在审
申请号: | 202211601288.9 | 申请日: | 2022-12-13 |
公开(公告)号: | CN115952536A | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 李颉;曾益;吴晨涛;纪呼啸;余翔;王超 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06V10/764;G06V10/774 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 宣慧兰 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 不可 学习 噪声 生成器 数据 保护 方法 设备 介质 | ||
本发明涉及基于不可学习噪声生成器的数据保护方法、设备、介质,所述方法包括如下步骤:获取目标数据集以及随机的生成器种子,针对所述生成器种子,采用预设的辅助分类模型进行优化,获取优选的生成器种子,完成噪声生成器进行初始化;根据所述优选的生成器种子,生成基于标签分类的不可学习噪声,针对所述目标数据集中的每个样本,加入所述不可学习噪声,获取不可学习数据集。与现有技术相比,本发明通过加噪前使用辅助分类模型进行训练,在使用生成器加噪过程中让具有相同标签的图像的噪声具有相似的特征,解决或部分解决现有的基于标签的噪声容易导致原始数据泄露的问题。
技术领域
本发明涉及大数据与人工智能领域,尤其是涉及一种基于不可学习噪声生成器的数据保护方法、设备、介质。
背景技术
数据知识产权和隐私保护方法是深度学习领域中一项重要的问题。近年来深度学习在计算机视觉、自然语言处理等领域已经取得了突破性的进展,这在一定程度上归功于网络空间中数据量的指数级增长和计算机数据处理能力的不断增强。伴随着大规模数据集如ImageNet、JFT-300M等的使用,神经网络模型在一些任务上的准确程度甚至已经超过了人类。
然而大部分深度学习数据集都是研究人员从网上爬取得到的,这就会涉及到个人数据隐私的问题;同时,很多大规模数据集的采集与标注都倾注了大量的人力、物力,因此数据集的知识产权也是一个非常重要的话题。无论是未经授权的数据采集还是模型训练,都会带来关于个人隐私、知识产权方面的纠纷。对于商用的数据集来说,不诚实的用户会私自爬取公开提供的预览图像来用作深度神经网络模型的训练集,从而给数据拥有者造成损失;对于私人使用的图像,其中包含的所有者的个人隐私可能被侵犯。此外,这些图像还可能被用来训练一些用于不道德甚至非法目的的神经网络模型。
近年来,面对深度学习中数据知识产权和隐私保护中的这些关键问题,研究人员已经提出了一些解决机器学习场景下的数据集知识产权保护和数据隐私问题的方法。这些方法大致可以分成三类:训练过程中的隐私保护技术、训练完成后的侵权推断技术以及训练开始前的数据扰动技术,即不可学习样本。
训练过程中的隐私保护技术是指在模型多方合作训练过程中对训练数据或者梯度数据进行一定的修改,从而使其他参与者无法从梯度更新信息中反推出训练数据;训练完成后的侵权推断技术是依据训练完成的模型对训练数据和非训练数据的不同的表现,推断出模型训练集是否包含某个数据集;而不可学习噪声则是通过在数据集中添加肉眼无法察觉到的噪声,使其无法训练出一个有效的模型。
训练过程中的隐私保护技术在保护数据隐私方面取得了重大进展,但它的假设是,数据拥有者授权了神经网络模型的训练;侵权推断技术在白盒情况和黑盒情况下都取得了一定的成功,然而上述方法都需要数据集拥有者去追踪训练好的神经网络模型,而且数据集拥有者仍然需要花费时间和精力去进行维权;而不可学习噪声则解决了在未授权场景下对侵犯数据之产权行为的预防。
目前传统的不可学习噪声分为基于标签、基于样本两种形式。基于标签的噪声与图像所标注的标签有一对一的对应关系,而基于样本的噪声与图像本身有一对一的对应关系。传统的不可学习噪声存在以下瓶颈:
(1)基于标签的噪声很容易导致原始图片的泄露:如果其中一个原始图像被泄露,那么攻击者就可以推断出该类所有图像的噪声。此外,用一些统计方法,噪音也很容易被检测出来。
(2)基于样本的噪声比较难被检测出来,但如果数据拥有者希望同时保存原始图像样本和不可学习样本,这种方法需要双倍的存储空间。
(3)基于样本的噪声表现不如基于标签的噪声的表现好。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于不可学习噪声生成器的数据保护方法、设备、介质,通过加噪前使用辅助分类模型进行训练,在加噪过程中让具有相同标签的图像的噪声具有相似的特征,从而解决或部分解决现有的基于标签的噪声容易导致原始数据泄露的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211601288.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种线束连接器的焊点保护结构及其应用方法
- 下一篇:一种组合式烘干设备