[发明专利]样本聚类处理方法、装置、设备及存储介质在审
申请号: | 202210040713.5 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114528916A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 彭胜波;周吉文;刘吉;陈治宇 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 处理 方法 装置 设备 存储 介质 | ||
本公开提供了一种样本聚类处理方法、装置、设备及存储介质,涉及联邦学习与数据处理等技术领域。具体实现方案为:接收参与联邦学习的多个计算设备中各所述计算设备发送的本地样本距离信息;基于各所述计算设备的本地样本距离信息,获取样本的聚类信息;向各所述计算设备发送样本的聚类信息,以供各所述计算设备基于样本的聚类信息,将本地的各样本进行聚类处理。根据本公开的技术,能够有效地保证样本聚类处理的准确性和聚类精度。
技术领域
本公开涉及计算机技术领域,具体涉及联邦学习与分布式数据处理等技术领域,尤其涉及一种样本聚类处理方法、装置、设备及存储介质。
背景技术
基于如联邦学习(Federated Learning;FL)之类的分布式学习,是一种新兴的人工智能基础技术。在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算节点之间开展高效率的机器学习。目前,已经成为当前数据科学领域的研究热点之一。然而将无监督学习的算法如聚类算法应用于联邦学习场景中仍然有所缺失。
现有的聚类处理方案只能运行在单方机构的服务器上,无法打破数据孤岛,合理利用多个参与方的数据进行学习建模,从而释放各参与方的数据价值。
发明内容
本公开提供了一种样本聚类处理方法、装置、设备及存储介质。
根据本公开的一方面,提供了一种样本聚类处理方法,包括:
接收参与联邦学习的多个计算设备中各所述计算设备发送的本地样本距离信息;
基于各所述计算设备的本地样本距离信息,获取样本的聚类信息;
向各所述计算设备发送所述样本的聚类信息合,以供各所述计算设备基于所述样本的聚类信息,将本地的各样本进行聚类处理。
根据本公开的另一方面,提供了一种样本聚类处理方法,包括:
基于本地的各样本的特征信息,获取各所述样本的本地样本距离信息;
向中心服务器发送所述本地样本距离信息,以供所述中心服务器基于所有计算设备发送的所述本地样本距离信息,获取样本的聚类信息;
接收所述中心服务器发送的所述样本的聚类信息;
基于所述样本的聚类信息,将本地的各所述样本进行聚类处理。
根据本公开的再一方面,提供了一种样本聚类处理装置,包括:
接收模块,用于接收参与联邦学习的多个计算设备中各所述计算设备发送的本地样本距离信息;
聚类信息获取模块,用于基于各所述计算设备的本地样本距离信息,获取样本的聚类信息;
发送模块,用于向各所述计算设备发送所述样本的聚类信息,以供各所述计算设备基于所述样本的聚类信息,将本地的各样本进行聚类处理。
根据本公开的又一方面,提供了一种计算设备,包括:
获取模块,用于基于本地的各样本的特征信息,获取各所述样本的本地样本距离信息;
发送模块,用于向中心服务器发送所述本地样本距离信息,以供所述中心服务器基于所有计算设备发送的所述本地样本距离信息,获取样本的聚类信息;
接收模块,用于接收所述中心服务器发送的所述样本的聚类信息;
聚类处理模块,用于基于所述样本的聚类信息,将本地的各所述样本进行聚类处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210040713.5/2.html,转载请声明来源钻瓜专利网。