[发明专利]一种联邦梯度提升决策树投票并行训练方法有效
申请号: | 202110138495.4 | 申请日: | 2021-02-01 |
公开(公告)号: | CN112836830B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 李先贤;高士淇;石贞奎 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06N20/20 | 分类号: | G06N20/20;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 桂林市持衡专利商标事务所有限公司 45107 | 代理人: | 陈跃琳 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联邦 梯度 提升 决策树 投票 并行 训练 方法 | ||
1.一种联邦梯度提升决策树投票并行训练方法,其特征是,包括步骤如下:
步骤1、每个参与方利用基于隐私保护的表格数据的对抗生成网络将本地原始样本集生成本地合成样本集后,上传至中心服务器;其中参与方为医院或银行;当参与方为医院时,其样本为患者的医疗数据;参与方为银行时,其样本为用户的交易数据;
步骤2、中心服务器先将所有参与方所上传的本地合成样本集聚合为全局合成样本集,再利用全局合成样本集构建全局kd-tree,后将全局kd-tree发送给所有参与方;
步骤3、每个参与方基于全局kd-tree的树结构,利用本地原始样本集构建各自的本地kd-tree;
步骤4、每个参与方利用全局kd-tree和本地kd-tree中对应叶子节点的样本数量,确定kd-tree的每个叶子节点的采样样本,并将kd-tree的所有叶子节点的采样样本形成各自的本地混合样本集后,开始训练过程;
在确定kd-tree的每个叶子节点的采样样本时:
①若采用过采样的方式确定kd-tree的每个叶子节点的采样样本,此时:
先计算全局kd-tree的第i个叶子节点的采样数量
再从全局kd-tree的第i个叶子节点的所有样本中随机采样出个样本,并加上本地kd-tree的第i个叶子节点的所有样本,作为第i个叶子节点的采样样本;
②若采用欠采样的方式确定kd-tree的每个叶子节点的采样样本,此时:
先计算本地kd-tree的第i个叶子节点的采样数量
再从本地kd-tree的第i个叶子节点的所有样本中随机采样出个样本,作为第i个叶子节点的采样样本;
上述式中,|S′(li)|为全局kd-tree中第i个叶子节点的样本数量,|S(li)|为本地kd-tree中第i个叶子节点的样本数量,|X′|为全局合成样本集的样本数量,|Xj|为本地原始样本集的样本数量,δ为分布控制参数,0δ1;i∈[1,n],n为全局kd-tree或本地kd-tree的叶子节点的数量,j∈[1,m],m为参与方的数量;
步骤5、中心服务器协同所有参与方利用其本地混合样本集和本地原始样本集采用基于投票特征的联邦梯度提升决策树训练方法去训练梯度提升决策树;其中基于投票特征的联邦梯度提升决策树训练方法的每一次训练过程具体如下:
步骤5.1、每个参与方先根据其当前本地混合样本集,生成当前本地混合样本集的所有特征的梯度直方图;再根据每个特征的梯度直方图计算每个特征的增益值;后将根据增益值从大到小对所有特征进行排序,并将排在前k位的特征作为本地特征上传至中心服务器;
步骤5.2、中心服务器对所有参与方所上传的k个本地特征进行投票统计,其中本地特征被一个参与方上传记为该本地特征获得一票,并将票数排在前2k位的本地特征作为全局特征发送给每个参与方;
步骤5.3、每个参与方根据其当前本地原始样本集,生成这2k个全局特征的梯度直方图,并对2k个梯度直方图加入差分隐私噪声后得到2k个加噪梯度直方图,上传至中心服务器;
步骤5.4、中心服务器先将所有参与方所上传的2k个加噪梯度直方图进行对应全局特征地聚合,得到2k个全局梯度直方图;再根据2k个全局梯度直方图计算2k个全局特征的增益值和分割阈值;后将增益值最大的全局特征作为分割特征,并将该分割特征及其分割阈值发送给每个参与方;
步骤5.5、每个参与方根据所返回的分割特征和分割阈值对当前本地混合样本集和当前本地原始样本集进行划分;
上述k为设定值;
步骤6、将参与方将所需预测的样本实例输入到步骤5所训练好的梯度提升决策树中,当输入预测样本实例时,就会根据参数划分得到对应基学习器的权重,最终每个决策树的结构之和就是预测结果,由此完成对样本实例的预测;其中预测结果在参与方为医院时,代表该患者可能患有某种疾病的可能性,当参与方为银行时,代表客户申请信用卡可能会用于诈骗的可能性。
2.根据权利要求1所述的一种联邦梯度提升决策树投票并行训练方法,其特征是,步骤5中,在训练梯度提升决策树之前,中心服务器需要确定梯度提升决策树的模型参数,其中模型参数包括弱决策树的深度,弱决策树的个数和损失函数,并将模型参数发送给每个参与方。
3.根据权利要求1所述的一种联邦梯度提升决策树投票并行训练方法,其特征是,步骤1中,生成样本集的样本数据的数量为其中|xj|为本地原始样本集xj的样本数量,m为参与方的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110138495.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有水冷功能的计算机机箱散热装置
- 下一篇:一种圆刀网及刀片组