[发明专利]一种在联邦学习场景下的数据集划分方法及系统在审
申请号: | 202011455586.2 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112686388A | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 苏新铎;陈建良;田丰;陈光;戴晶帼;王丹丹 | 申请(专利权)人: | 广州广电运通金融电子股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 唐超文 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联邦 学习 场景 数据 划分 方法 系统 | ||
1.一种在联邦学习场景下的数据集划分方法,其特征在于,包括如下步骤:
步骤S1,判断各联邦学习参与方提供的原始数据的数据分布是否一致;
步骤S2,使用各所述联邦学习参与方提供的数据分布一致的所述原始数据以及模型测试数据训练、使用验证集优化得到最优的联邦分类模型M1;
步骤S3,将归属于各所述联邦学习参与方的所述原始数据输入到所述联邦分类模型M1中,所述联邦分类模型M1输出模型输入数据为所述模型测试数据的概率;
步骤S4,按照预测概率由高到低选取指定数量的所述模型输入数据划分为数据归属的所述联邦学习参与方提供的用于验证模型性能的验证集,剩余的所述模型输入数据划分为数据归属的所述联邦学习参与方提供的用于训练模型的训练集。
2.根据权利要求1所述的在联邦学习场景下的数据集划分方法,其特征在于,所述步骤S1中,判断各所述联邦学习参与方提供的所述原始数据的数据分布是否一致的方法具体包括:
步骤S11,将所述联邦学习参与方提供的所述原始数据划分为与所述原始数据的数据分布一致的训练集、验证集和测试集;
步骤S12,为划分的分属于各所述联邦学习参与方的训练集、验证集赋予相对应的数据标签;
步骤S13,使用带有数据标签的分属于各所述联邦学习参与方的所述训练集训练、使用验证集优化得到最优的联邦分类模型M2;
步骤S14,将分属于各所述联邦学习参与方的所述测试集输入到所述联邦分类模型M2中,得到所述联邦分类模型M2区分各归属方输入数据的若干个本地性能评价指标;
步骤S15,对所述联邦分类模型M2为区分输入数据归属方得到的各所述本地性能评价指标的值进行聚合计算,得到一全局评价指标值,并根据所述全局评价指标值判断出各所述联邦学习参与方分别提供的所述原始数据的数据分布是否一致。
3.一种在联邦学习场景下的数据集划分系统,可实现如权利要求1或2任意一项所述的数据集划分方法,其特征在于,所述数据集划分系统包括:
数据分布一致性判断模块,用于判断各联邦学习参与方提供的原始数据的数据分布是否一致;
数据标签赋予模块,用于为数据分布一致的各所述联邦学习参与方提供的所述原始数据赋予相对应的数据标签并存储,并为模型测试数据赋予相对应的数据标签并存储;
数据获取模块,连接所述数据标签赋予模块,用于获取经标签赋予后的的所述原始数据作为模型训练样本,获取所述模型测试数据作为模型验证样本;
M1联邦分类模型训练模块,连接所述数据获取模块,用于使用获取的各所述联邦学习参与方提供的所述原始数据和所述模型测试数据训练,使用验证集优化得到最优的联邦分类模型M1;
M1模型性能测试模块,分别连接所述数据获取模块和所述M1联邦分类模型训练模块,用于将获取的归属于各所述联邦学习参与方的所述原始数据输入到所述联邦分类模型M1中,所述联邦分类模型M1输出模型输入数据为所述模型测试数据的概率;
验证集选定模块,连接所述M1模型性能测试模块和所述数据获取模块,用于按照预测概率由高到低选取指定数量的所述模型输入数据作为数据归属的所述联邦学习参与方提供的用于验证模型性能的验证集,剩余的所述模型输入数据作为数据归属的所述联邦学习参与方提供的用于训练模型的训练集。
4.根据权利要求3所述的在联邦学习场景下的数据集划分系统,其特征在于,所述数据分布一致性判断模块中具体包括:
数据划分单元,用于将各所述联邦学习参与方提供的所述原始数据划分为与所述原始数据的数据分布一致的训练集、验证集和测试集;
数据标签赋予单元,连接所述数据划分单元,用于为划分的分属于各所述联邦学习参与方的训练集、验证集赋予相对应的数据标签,并为所述模型测试数据赋予相对应的数据标签;
M2联邦分类模型训练单元,连接所述数据标签赋予单元,用于使用带有数据标签的分属于各所述联邦学习参与方的所述训练集训练、使用验证集优化得到最优的联邦分类模型M2;
M2模型性能测试单元,分别连接所述数据划分单元和所述M2联邦分类模型训练单元,用于将分属于各所述联邦学习参与方的所述测试集输入到所述联邦分类模型M2中,得到所述联邦分类模型M2区分各归属方输入数据的若干个本地性能评价指标;
数值聚合计算单元,连接所述M2模型性能测试单元,用于对所述联邦分类模型M2为区分输入数据归属方得到的各所述本地性能评价指标的值进行聚合计算,得到一全局评价指标值;
数据分布一致性判断单元,连接所述数值聚合计算单元,用于根据所述全局评价指标值,判断出各所述联邦学习参与方分别提供的所述原始数据的数据分布是否一致。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州广电运通金融电子股份有限公司,未经广州广电运通金融电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011455586.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置