[发明专利]一种基于联盟链的联邦学习的数据处理方法与系统有效
申请号: | 202110224615.2 | 申请日: | 2021-03-01 |
公开(公告)号: | CN112597240B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 邵俊;万友平;李骏琪 | 申请(专利权)人: | 索信达(北京)数据技术有限公司;深圳索信达数据技术有限公司 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/2458;G06F16/27;G06K9/62;G06N20/20 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 杨云 |
地址: | 100020 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 联盟 联邦 学习 数据处理 方法 系统 | ||
1.一种基于联盟链的联邦学习的数据处理方法,其特征在于,包括:
发起方建立智能合约;
联盟链上各个节点将初始模型参数写入智能合约中;
各节点将样本数据量发送到智能合约上,根据各个样本数据量大小分别分配相应数量的通证;
每一轮模型训练中,各节点将训练获得的梯度值发送至所述智能合约,根据各个节点的梯度值和样本数据量,计算各节点的偏离指数;
根据所述偏离指数识别可疑节点;
其他节点基于PBFT机制对可疑节点进行投票,根据投票结果对所述可疑节点进行验证;
其中,根据各个节点的梯度值和样本数据量,计算各节点的偏离指数,包括:
根据各个节点的梯度值,计算梯度平均值;
根据所述梯度平均值、各个节点的梯度值和各个样本数据量,计算各个节点的偏离指数;
所述偏离指数通过以下公式进行计算:
;
其中,为第m个节点的样本数据量,为第m个节点的梯度值,为梯度平均值,为第m个节点的偏离指数。
2.如权利要求1所述方法,其特征在于,所述通证的数量与样本数据量的平方根成正比。
3.如权利要求1所述方法,其特征在于,每一轮训练中,各节点将训练获得的梯度值发送至所述智能合约之后,还包括:
智能合约将各个节点发送的梯度值进行相加,获得梯度和;
各个节点查询所述智能合约获得所述梯度和,并基于所述梯度和进行下一轮模型训练,直到满足训练停止条件。
4.如权利要求3所述的方法,其特征在于,获得所述梯度和之后,还包括:
基于所述梯度和更新所述初始模型参数或者上一轮的模型参数。
5.如权利要求1所述的方法,其特征在于,根据所述偏离指数识别可疑节点,包括:
将每一轮获得的所有节点的偏离指数进行排序;
如果某个节点连续k轮偏离指数排名第一,则确定该节点为可疑节点。
6.如权利要求5所述的方法,其特征在于,k满足以下条件:
选择最小的自然数k,使得
;
其中,n为节点的总数。
7.如权利要求6所述的方法,其特征在于,其他节点基于PBFT机制对可疑节点进行投票,如果投票通过,则确定该可疑节点的样本数据量为虚假数据量,将该节点的通证销毁。
8.如权利要求1所述方法,其特征在于,模型训练完成之后,将模型产生的收益根据节点的样本数据量进行分配;
第m个节点的收益值为,其中,F为总收益,为第m个节点的样本数据量,n为节点的总数。
9.一种基于联盟链的联邦学习的数据处理系统,应用于如权利要求1-8任一所述的方法,其特征在于,包括发起方和n个节点,其中n为大于1的整数;所述发起方建立智能合约;各所述节点将初始模型参数写入智能合约中;各节点将样本数据量发送到智能合约上,智能合约根据各个样本数据量大小分别分配相应数量的通证;每一轮模型训练中,各节点将训练获得的梯度值发送至所述智能合约,智能合约根据各个节点的梯度值和样本数据量,计算各节点的偏离指数,根据所述偏离指数识别可疑节点;其他节点基于PBFT机制对可疑节点进行投票,根据投票结果对所述可疑节点进行验证;
其中,根据各个节点的梯度值和样本数据量,计算各节点的偏离指数,包括:
根据各个节点的梯度值,计算梯度平均值;
根据所述梯度平均值、各个节点的梯度值和各个样本数据量,计算各个节点的偏离指数;
所述偏离指数通过以下公式进行计算:
;
其中,为第m个节点的样本数据量,为第m个节点的梯度值,为梯度平均值,为第m个节点的偏离指数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索信达(北京)数据技术有限公司;深圳索信达数据技术有限公司,未经索信达(北京)数据技术有限公司;深圳索信达数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110224615.2/1.html,转载请声明来源钻瓜专利网。