[发明专利]样本聚类处理方法、装置、设备及存储介质在审
申请号: | 202210040713.5 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114528916A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 彭胜波;周吉文;刘吉;陈治宇 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 处理 方法 装置 设备 存储 介质 | ||
1.一种样本聚类处理方法,包括:
接收参与联邦学习的多个计算设备中各所述计算设备发送的本地样本距离信息;
基于各所述计算设备的本地样本距离信息,获取样本的聚类信息;
向各所述计算设备发送所述样本的聚类信息,以供各所述计算设备基于所述样本的聚类信息,将本地的各样本进行聚类处理。
2.根据权利要求1所述的方法,其中,基于各所述计算设备的本地样本距离信息,获取样本的聚类信息,包括:
基于各所述计算设备的本地样本距离信息,生成各所述样本的全特征维度的距离信息;
基于各所述样本的全特征维度的距离信息,获取各样本的局部密度和跟随距离;
基于各所述样本的局部密度和跟随距离,获取局部密度阈值和跟随距离阈值。
3.根据权利要求2所述的方法,其中,基于各所述样本的全特征维度的距离信息,获取各样本的局部密度和跟随距离,包括:
基于各所述样本的全特征维度的距离信息,设置各所述样本的截断距离;
基于各所述样本的全特征维度的距离信息和各所述样本的截断距离,计算各所述样本的局部密度;
基于各所述样本的全特征维度的距离信息、各所述样本的截断距离以及各所述样本的局部密度,获取各所述样本的跟随距离。
4.根据权利要求2所述的方法,其中,向各所述计算设备发送所述样本的聚类信息,以供各所述计算设备基于所述样本的聚类信息,将本地的各样本进行聚类处理,包括:
向各所述计算设备发送各所述样本的局部密度和跟随距离、以及所述局部密度阈值和所述跟随距离阈值,以供各所述计算设备基于各所述样本的局部密度和跟随距离、以及所述局部密度阈值和所述跟随距离阈值,将本地的各所述样本进行聚类处理。
5.根据权利要求2所述的方法,其中,基于各所述计算设备的本地样本距离信息,获取样本的聚类信息,还包括:
基于所述局部密度阈值和所述跟随距离阈值、以及各所述样本的局部密度和跟随距离,对各样本的标识进行聚合,得到所述样本的聚类簇集合。
6.根据权利要求5所述的方法,其中,基于所述局部密度阈值和所述跟随距离阈值、以及各所述样本的局部密度和跟随距离,对各样本标识进行聚合,得到所述样本的聚类簇集合,包括:
从各所述样本的标识中获取至少一个所述局部密度大于所述局部密度阈值、且所述跟随距离大于所述跟随距离阈值的样本标识,分别作为聚类中心点;
将其他各所述样本的标识被分派到比自身的所述局部密度大、且距离最近的所述聚类中心点上,得到所述样本的聚类簇集合。
7.根据权利要求6所述的方法,其中,从各所述样本的标识中获取至少一个所述局部密度大于所述局部密度阈值、且所述跟随距离大于所述跟随距离阈值的样本标识,分别作为聚类中心点之后,将其他各所述样本的标识被分派到比自身的所述局部密度大、且距离最近的所述聚类中心点上,得到所述样本的聚类簇集合之前,所述方法还包括:
将其他各所述样本的标识中所述跟随距离大于预设距离阈值、但是所述局部密度小于预设密度阈值的样本的标识,作为噪声样本,删除。
8.根据权利要5所述的方法,其中,向各所述计算设备发送所述样本的聚类信息,以供各所述计算设备基于所述样本的聚类信息将本地的各样本进行聚类处理,包括:
向各所述计算设备发送所述样本的聚类簇集合,以供各所述计算设备基于所述样本的聚类簇集合,将本地的各样本进行聚类处理。
9.根据权利要求1-8任一所述的方法,其中,接收参与联邦学习的多个计算设备中各所述计算设备发送的本地样本距离信息,包括:
接收各所述计算设备发送的携带噪声的所述本地样本距离信息;且各所述计算设备对应的所述噪声之和为零。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210040713.5/1.html,转载请声明来源钻瓜专利网。