[发明专利]数据保护方法、装置、服务器和介质有效
申请号: | 202010640985.X | 申请日: | 2020-07-06 |
公开(公告)号: | CN111783142B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 孙建凯;高伟豪;张宏毅;王崇;解浚源;吴良超;刘小兵 | 申请(专利权)人: | 北京字节跳动网络技术有限公司;字节跳动有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62;G06N20/00 |
代理公司: | 北京海智友知识产权代理事务所(普通合伙) 11455 | 代理人: | 吴京顺 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 保护 方法 装置 服务器 介质 | ||
本申请实施例公开了数据保护方法、装置、服务器和介质。该方法的一具体实施方式包括:获取属于分布不均衡的二分类样本集的目标样本和与该目标样本属于同批次的参考样本分别对应的梯度关联信息;根据该目标样本对应的梯度关联信息与该参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息;根据该待添加的数据噪声的信息对该目标样本对应的初始梯度传递值进行修正,以使样本集中属于不同类别的样本所对应的修正后的梯度传递信息一致;将该梯度传递信息发送至联合训练模型的被动参与方。该实施方式使得正负样本对应的修正后的梯度传递信息没有明显差异,从而有力地保护了数据安全。
技术领域
本申请实施例涉及计算机技术领域,具体涉及数据保护方法、装置、服务器和介质。
背景技术
随着人工智能技术的发展,机器学习取得越来越广泛的应用。近年来,为了保护数据安全和解决数据孤岛的问题,相关的方式通常采用联合训练模型来实现在不暴露原始数据的前提下完成机器学习模型的共同训练。针对有监督机器学习模型,通常将拥有样本标签的一方称为主动参与方(active party),将未拥有样本标签的一方称为被动参与方(passive party)。主动参与方所拥有的样本标签是在联合训练模型中需要进行保护的重要数据之一。
发明内容
本申请实施例提出了数据保护方法、装置、服务器和介质。
第一方面,本申请实施例提供了一种数据保护方法,该方法包括:获取目标样本和与目标样本属于同批次的参考样本分别对应的梯度关联信息,其中,目标样本所属的样本集属于分布不均衡的二分类样本集;根据目标样本对应的梯度关联信息与参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息;根据待添加的数据噪声的信息对目标样本对应的初始梯度传递值进行修正,生成修正后的梯度传递信息,以使样本集中属于不同类别的样本所对应的梯度传递信息一致,其中,初始梯度传递值用于指示根据目标样本调整所训练的联合训练模型;将梯度传递信息发送至联合训练模型的被动参与方,以使被动参与方根据梯度传递信息调整联合训练模型的参数。
在一些实施例中,上述梯度关联信息包括用于表征样本类别的样本标签和样本预测概率,样本预测概率用于表征样本经过联合训练模型所得到的预测为预设类别标签的概率,预设类别标签包括样本集中占比较小的样本标签,参考样本包括样本预测概率满足预设概率条件且样本标签与预设类别标签一致的样本;以及上述根据目标样本对应的梯度关联信息与参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息,包括:根据目标样本对应的样本标签是否与预设类别标签一致,生成与目标样本匹配的待添加的数据噪声的标准差。
在一些实施例中,上述根据目标样本对应的样本标签是否与预设类别标签一致,生成与目标样本匹配的待添加的数据噪声的标准差,包括:响应于确定目标样本对应的样本标签与预设类别标签不一致,生成第一标准差作为与目标样本匹配的待添加的数据噪声的标准差,其中,第一标准差与目标样本对应的样本预测概率负相关。
在一些实施例中,上述根据目标样本对应的样本标签是否与预设类别标签一致,生成与目标样本匹配的待添加的数据噪声的标准差,包括:响应于确定目标样本对应的样本标签与预设类别标签一致且目标样本对应的样本预测概率大于参考样本的样本预测概率,生成第二标准差作为与目标样本匹配的待添加的数据噪声的标准差,其中,第二标准差与目标样本对应的样本预测概率正相关。
在一些实施例中,上述参考样本包括与目标样本同批次、且与预设类别标签一致的样本中样本预测概率最小的样本。
在一些实施例中,上述梯度关联信息包括梯度模,梯度模用于指示样本对应的损失函数对属于被动参与方的模型部分的参数的梯度的模;以及上述根据目标样本对应的梯度关联信息与参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息,包括:响应于确定目标样本对应的梯度模小于参考样本的梯度模,生成第三标准差作为与目标样本匹配的待添加的数据噪声的标准差,其中,第三标准差与目标样本对应的梯度模负相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司;字节跳动有限公司,未经北京字节跳动网络技术有限公司;字节跳动有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010640985.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种液压管路清洗装置及使用方法
- 下一篇:一种用于煤化工用的鼓风机
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置