[发明专利]多方参与的训练样本选取方法、装置、电子设备及介质在审
申请号: | 202310758296.2 | 申请日: | 2023-06-25 |
公开(公告)号: | CN116644319A | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 朱敏杰;楼骁涵 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/10;G06N3/08 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多方 参与 训练 样本 选取 方法 装置 电子设备 介质 | ||
本说明书公开了一种隐私保护的数据传输方法、装置、电子设备及介质。方法包括:联邦学习的赋能参与方获取非赋能参与方基于差分隐私算法提供的本地目标标注结果的样本的干扰特征数据,并汇总得到干扰特征数据集。赋能参与方与基于节点分裂的方式构建干扰特征数据集的决策树,决策树中任意目标节点的分裂是根据所属节点最优的一个分裂条件所分裂而成,分裂条件包括至少一个目标标注结果下的特征数据筛选规则。赋能参与方基于决策树中至少一个节点在实际分裂时所对应的分裂条件,确定目标标注结果的样本选取规则,并将其提供给非赋能参与方。非赋能参与方基于接收到的样本选取规则,从本地未标注的样本中选取出待作为目标标注结果的训练样本。
技术领域
本文件涉及人工智能技术领域,尤其涉及一种多方参与的训练样本选取方法、装置、电子设备及介质。
背景技术
联邦学习是一种机器学习的训练框架,能够帮助多个参与方在满足数据隐私保护的要求下联合训练模型。联邦学习虽然解决了训练阶段的数据隐私问题,但在更靠前的训练样本准备阶段,参与方之间需要根据模型的应用需求以及各方样本的数据特点,来协商总结出训练样本的选取规则,从而根据协商敲定后的选取规则从本地私有数据中选出训练目的一致的训练样本。而为了能够总结出训练样本的选取规则,各参与方之间难免要共享一部分自己的私有数据以作为支持。
为此,在多方参与联合建模的场景下,如何在训练样本准备阶段也能够保证数据隐私是当前亟需解决的技术问题。
发明内容
本说明书实施例提供了一种多方参与的训练样本选取方法、装置、电子设备及介质,能够在保证数据隐私的基础之上,结合联邦学习各参与方样本的数据特征,分析出统一的训练样本的选取规则,从而帮助各参与方基于选取规则在各自的私有数据中筛选出训练目的一致的训练样本。
为解决上述技术问题,本说明书实施例是这样实现的:
第一方面,提出了一种多方参与的训练样本选取方法,包括:
联邦学习的非赋能参与方基于差分隐私算法,生成本地目标标注结果的样本的干扰特征数据,并将干扰特征数据发送至所述联邦学习的赋能参与方;
所述赋能参与方基于所述差分隐私算法,将接收到的非赋能参与方提供的干扰特征数据整合为干扰特征数据集,所述干扰特征数据集的干扰特征数据求和结果与对应除噪后的特征数据求和结果一致;
所述赋能参与方与基于节点分裂的方式构建所述干扰特征数据集的决策树,其中,任意目标节点分裂的过程包括:确定目标节点对应的每个备选分裂条件对所述目标节点进行模拟分裂,每个备选分裂条件均包含有至少一个目标标注结果下的特征数据筛选规则;确定每个模拟分裂结果相对预设数据约束条件的约束适应度,以及每个模拟分裂结果相对所述干扰特征数据集的分裂纯度变化度;基于每个备选分裂条件对应模拟分裂结果的分裂纯度变化度和约束适应度,确定每个备选分裂条件对应的综合分数;基于综合分数最优的目标备选分裂条件对所述目标节点进行实际分裂;
所述赋能参与方基于所述决策树中至少一个节点对应的目标备选分裂条件,确定所述目标标注结果的样本选取规则,并将所述样本选取规则反馈至所述非赋能参与方;
所述非赋能参与方基于接收到的所述样本选取规则,从本地未标注的样本中选取出待作为所述目标标注结果的训练样本。
第二方面,提出了一联邦学习装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310758296.2/2.html,转载请声明来源钻瓜专利网。