[发明专利]一种面向k-means聚类算法的联邦学习方法有效
申请号: | 202110473993.4 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113222181B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 刘健;田志华;张睿;侯潇扬;任奎 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06N20/20 | 分类号: | G06N20/20;G06K9/62;G06N20/10 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 means 算法 联邦 学习方法 | ||
1.一种面向k-means聚类算法的联邦学习方法,其特征在于,该方法主要包括两个部分,纵向联邦学习与横向联邦学习;
所述横向联邦学习包括以下步骤:
(1.1)初始化K个聚类中心,并将这K个聚类中心发送给所有参与者:每个参与者都是具有相同特征、不同样本的数据库,所有参与者共同构成总数据库;所述样本指该数据库中的一条数据;
(1.2)分别计算所述所有参与者的每一个样本与聚类中心的欧几里得距离的平方,找到每个样本欧几里得距离的平方最小的聚类中心,并将该样本分到距离该聚类中心所对应的聚类;
(1.3)在参与者本地统计该参与者中每个聚类的样本数量和样本之和,然后使用安全聚合方法计算总体数据库中每个聚类的样本数量、样本之和、平均值,将计算得到的平均值作为该聚类的新的聚类中心;如果新的聚类中心与原来的聚类中心不同并且迭代次数小于设定次数,那么回到步骤(1.2),迭代次数加一;所述样本之和指的是样本所对应的几条数据按特征对应求和,并不改变样本的维度;
所述纵向联邦学习包括以下步骤:
(2.1)每个参与者都是具有相同样本、不同特征的数据库,所有参与者共同构成总数据库,每个参与者中的样本指该数据库中的一条数据,L个参与者分别在本地运行k-means聚类算法得到T个在该参与者本地的聚类和对应的中心并且每个参与者将这T个聚类中样本的标号及对应聚类标号发送给最后一个参与者,或者这L个参与者分别在本地运行AP聚类算法,得到一些该参与者本地的聚类和对应的中心,聚类数目由算法确定记为Ti,随后每个参与者将这聚类中样本的标号及对应聚类标号发送给最后一个参与者;
(2.2)在最后一个参与者中,将每个参与者得到的聚类做交集得到新的TL或个聚类,将新的TL或个聚类结果即将每个样本所属的新的聚类标号发送给所有参与者,在每个参与者上计算每一个聚类的样本数量、样本和、平均值,计算得到的平均值作为该聚类在当前参与者所持有的特征上的聚类中心,从而得到这TL或个聚类的聚类中心,此时聚类中心的特征均存储在不同的参与者上;所述样本和指的是样本所对应的几条数据按特征对应求和,并不改变样本的维度;
(2.3)将新的TL或个聚类中心作为新的数据库,所述样本均为该新数据库中的样本,同时将该TL或个聚类中的样本数量作为权重,初始化K个聚类及其K个聚类中心;
(2.4)在每个参与者中计算每个样本到每个聚类中心存储在当前参与者的对应特征的欧几里得距离的平方,然后使用安全聚合计算每个样本与聚类中心的欧几里得距离的平方,将距离输入样本欧几里得距离的平方最小的聚类中心所对应的聚类作为该样本所属的聚类;
(2.5)在不同参与者上计算将其作为新的聚类中心的对应特征,如果新的聚类中心与原来的聚类中心不同并且迭代次数小于设定次数,那么回到步骤(2.4)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110473993.4/1.html,转载请声明来源钻瓜专利网。