[发明专利]数据处理方法、装置、联邦学习系统和电子设备有效
申请号: | 202011528941.4 | 申请日: | 2020-12-22 |
公开(公告)号: | CN112598138B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 何恺;蒋精华;杨青友;洪爵 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06N20/20 | 分类号: | G06N20/20;G06F21/60 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 联邦 学习 系统 电子设备 | ||
本公开提供了数据处理方法、装置、联邦学习系统和电子设备,涉及深度学习和大数据处理等人工智能领域。具体实现方案为:联邦学习系统中的第一参与方基于不经意传输OT协议,与联邦学习系统中的第二参与方交互,得到不经意伪随机函数OPRF种子;第一参与方基于OPRF种子和第一参与方的数据标识集合,确定第一参与方的OPRF输出信息;第一参与方发送第一参与方的OPRF输出信息;其中,第一参与方的OPRF输出信息用于确定联邦学习系统的数据标识集合的交集。根据本公开的技术方案,可以提高数据安全。
技术领域
本公开涉及计算机技术领域,尤其涉及深度学习和大数据处理等人工智能领域。
背景技术
机器学习已经普遍应用到金融、医疗等各个领域。机器学习之所以能在各个领域取得良好效果,与相关技术的飞跃发展、硬件计算能力的快速提升以及数据的爆炸式增长有关。联邦学习是在满足用户隐私保护、数据安全和相关规则的情况下,利用多个机构的数据进行联合分析或者联合建模。在联邦学习之前多个机构即联邦学习的参与方,往往需要进行数据对齐。数据对齐是指对多个参与方的数据集中具有相同用户标识的数据进行对齐,其中包含确定多个参与方的数据集中相同的用户标识的过程。
发明内容
本公开提供了一种数据处理方法、装置、联邦学习系统和电子设备。
根据本公开的一方面,提供了一种数据处理方法,包括:
联邦学习系统中的第一参与方基于不经意传输OT协议,与联邦学习系统中的第二参与方交互,得到不经意伪随机函数OPRF种子;
第一参与方基于OPRF种子和第一参与方的数据标识集合,确定第一参与方的OPRF输出信息;
第一参与方发送第一参与方的OPRF输出信息;其中,第一参与方的OPRF输出信息用于确定联邦学习系统的数据标识集合的交集。
根据本公开的另一方面,提供了一种数据处理装置,应用于联邦学习系统中的第一参与方,装置包括:
交互模块,用于基于不经意传输OT协议,与联邦学习系统中的第二参与方交互,得到不经意伪随机函数OPRF种子;
第一确定模块,用于第一参与方基于OPRF种子和第一参与方的数据标识集合,确定第一参与方的OPRF输出信息;
第一发送模块,用于发送第一参与方的OPRF输出信息;其中,第一参与方的OPRF输出信息用于确定联邦学习系统的数据标识集合的交集。
根据本公开的另一方面,提供了一种联邦学习系统,包括第一参与方和第二参与方;
第二参与方,用于基于OT协议以及第二参与方的数据标识集合,与第一参与方交互,得到第二参与方的OPRF输出信息;
第一参与方,用于基于OT协议,与第二参与方交互,得到OPRF种子,基于OPRF种子和第一参与方的数据标识集合,确定第一参与方的OPRF输出信息,并发送第一参与方的OPRF输出信息;
其中,第一参与方的OPRF输出信息和第二参与方的OPRF输出信息用于确定联邦学习系统的数据标识集合的交集。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请实施例提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本申请实施例提供的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011528941.4/2.html,转载请声明来源钻瓜专利网。