[发明专利]应用于跨样本联邦学习的数据处理方法、装置及设备在审
申请号: | 202210191299.8 | 申请日: | 2022-02-28 |
公开(公告)号: | CN114548310A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 周一竞;孟丹;李晓林 | 申请(专利权)人: | 杭州博盾习言科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00;G06F21/60 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应用于 样本 联邦 学习 数据处理 方法 装置 设备 | ||
本公开的实施例提供了一种应用于跨样本联邦学习的数据处理方法、装置及设备,涉及联邦学习技术领域;包括:根据预设比例从原数据中确定参考数据,并对参考数据进行采样得到样本数据;若样本数据中包含非数值型数据,则生成对应于样本数据的统计值集合;在跨样本联邦学习场景中,基于各参与方的本地数据对应于相同的字段但各参与方的本地数据具体内容不同,可以基于各参与方发送的基于本地数据的统计值集合触发服务器联邦计算出全局统计值集合,进而,各参与方可以基于全局统计值集合实现对于样本数据的预处理,从而实现结合联邦学习的数据预处理方案,以便多参与方之间进行联邦学习。
技术领域
本公开涉及联邦学习技术领域,具体而言,涉及一种应用于跨样本联邦学习的数据处理方法、装置及设备。
背景技术
联邦学习是指一种机器学习框架,能有效帮助多个参与方(可以代表个人或机构)在满足数据隐私保护的要求下,联合训练模型。通常情况下,各参与方会基于服务器反馈的全局参数对联邦模型进行参数更新,但是,该过程通常指的是模型训练阶段。在模型训练阶段之前,各参与方通常需要对各自的本地数据进行处理,以使得本地数据达到预设的标准,去字符化后的本地数据可以应用于模型训练阶段。但是,在跨样本联邦学习场景下,各参与方样本分布不同,基于不同的样本分布无法更好的实现多参与方之间的联邦学习。因此,如何实现跨样本联邦学习场景下的数据预处理以便多参与方之间进行联邦学习成为了当前亟需解决的问题。
发明内容
本公开实施例的目的在于提供一种应用于跨样本联邦学习的数据处理方法、应用于跨样本联邦学习的数据处理装置、计算机可读介质及电子设备,在跨样本联邦学习场景中,各参与方的本地数据对应于相同的字段但各参与方的本地数据包含的具体内容不同,可以基于各参与方发送的基于本地数据的统计值集合触发服务器联邦计算出全局统计值集合,进而,各参与方可以基于全局统计值集合实现对于样本数据的预处理,从而实现结合联邦学习的数据预处理方案,以便多参与方之间进行联邦学习。
本公开实施例的第一方面提供了一种应用于跨样本联邦学习的数据处理方法,包括:
根据预设比例从原数据中确定参考数据,并对参考数据进行采样得到样本数据;
若样本数据中包含非数值型数据,则生成对应于样本数据的统计值集合;其中,统计值集合包括对应于至少一个字段的统计值;
对统计值集合中的统计值进行加密,并将加密后的统计值集合发送至服务器;
根据各参与方发送的加密后的统计值集合生成全局统计值集合并将全局统计值集合反馈至各参与方;
解密全局统计值集合并根据解密后的全局统计值集合对样本数据进行数值化处理,根据处理后的样本数据进行模型训练。
在本公开的一种示例性实施例中,生成对应于样本数据的统计值集合,包括:
确定样本数据对应的总样本数据量;
确定各样本数据中对应于同一字段的子数据,得到各字段对应的子数据集;
计算对应于各子数据集的统计值;
根据各子数据集的统计值和总样本数据量确定样本数据的统计值集合。
在本公开的一种示例性实施例中,子数据集的统计值包括第一类型子数据量、第二类型子数据量、均值以及众数中至少一种。
在本公开的一种示例性实施例中,解密全局统计值集合并根据解密后的全局统计值集合对样本数据进行数值化处理,包括:
确定子数据集中的第一类型子数据占比和第二类型子数据占比;
根据第一类型子数据占比和第二类型子数据占比对子数据集进行数值化处理。
在本公开的一种示例性实施例中,根据第一类型子数据占比和第二类型子数据占比对子数据集进行数值化处理,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州博盾习言科技有限公司,未经杭州博盾习言科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210191299.8/2.html,转载请声明来源钻瓜专利网。