[发明专利]基于构建梯度树模型的样本联合预测方法、系统及介质有效
申请号: | 201810918868.8 | 申请日: | 2018-08-10 |
公开(公告)号: | CN109299728B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 马国强;范涛;刘洋;陈天健;杨强 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/243;G06F18/27;G06N20/20;G06N3/098 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国;魏兰 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 构建 梯度 模型 样本 联合 预测 方法 系统 介质 | ||
本发明公开了一种基于构建梯度树模型的样本联合预测方法、系统及介质,方法包括以下步骤:数据终端基于梯度下降树GBDT算法对多方训练样本进行联邦训练,以构建梯度树模型,其中,所述数据终端为多个,所述梯度树模型包括多棵回归树,所述回归树包括多个分割点,所述训练样本包括多个特征,所述特征与所述分割点一一对应;所述数据终端基于所述梯度树模型,对待预测样本进行联合预测,以确定待预测样本的预测值。本发明通过GBDT算法对多方训练样本进行联邦训练,实现梯度树模型建立,通过梯度树模型,适用于数据量规模大的场景,可以很好地满足现实生产环境需要;对待预测样本进行联合预测,实现对待预测样本的预测。
技术领域
本发明涉及大数据处理技术领域,尤其涉及基于构建梯度树模型的样本联合预测方法、系统及可读存储介质。
背景技术
当前,关于隐私保护的联邦机器学习方案主要停留在理论研究和学术论文中,根据调研发现,受限于技术形态与实际应用,目前工业界无相关的技术应用。
当前现有的隐私保护联邦学习方案常出现在学术论文中,论文中较多的是针对简单的算法模型如logistic regression,或者单颗决策树decision tree的简单构造方法,如ID3、C4.5。对现实问题理解不足,更多地停留在理论阶段,缺乏对现实生产环境的思考,难以直接应用到工业界实际应用场景中。
发明内容
本发明的主要目的在于提供一种基于构建梯度树模型的样本联合预测方法、系统及可读存储介质,旨在解决现有技术中解决单方或双方对应的样本训练效率低下的技术问题。
为实现上述目的,本发明提供一种基于构建梯度树模型的样本联合预测方法,所述基于构建梯度树模型的样本联合预测方法包括以下步骤:
数据终端基于梯度下降树GBDT算法对多方训练样本进行联邦训练,以构建梯度树模型,其中,所述数据终端为多个,所述梯度树模型包括多棵回归树,所述回归树包括多个分割点,所述训练样本包括多个特征,所述特征与所述分割点一一对应;
所述数据终端基于所述梯度树模型,对待预测样本进行联合预测,以确定待预测样本的预测值。
优选地,所述多方训练样本包括各个所述数据终端分别存储有训练样本,各个所述训练样本具有相同的样本特征。
优选地,所述各数据终端基于梯度下降树GBDT算法对多方训练样本进行联邦训练,以构建梯度树模型的步骤包括:
在构建本轮回归树时,针对本轮回归树的待处理节点,各数据终端通过上一轮得到的第一梯度树模型进行预测得到本地待训练样本的损失函数的一阶导数及二阶导数;
各数据终端确定自身的样本特征的所有分割方式对应的分割点集合;
基于所述分割点集合中的每个分割点,各数据终端进行多方安全计算得到第一计算结果;
各数据终端基于自身的分割点及所述第一计算结果得到划分到左分枝的一阶导数之和与二阶导数之和、右分枝的一阶导数之和与二阶导数之和;
各数据终端对所述左分枝的一阶导数之和与二阶导数之和、右分枝的一阶导数之和与二阶导数之和执行加密操作后发送给所述分割点所在的数据终端进行求和汇总,得到汇总结果;
所述分割点所在的数据终端将所述汇总结果发送至协调终端,以供所述协调终端进行解密后得到左分枝的一阶导数之和及二阶导数之和、右分枝的一阶导数之和及二阶导数之和,基于所述左分枝的一阶导数之和及二阶导数之和、右分枝的一阶导数之和及二阶导数之和计算所述分割点对应的增益值,基于所述增益值计算最优分割点,并将所述最优分割点返回至所述最优分割点对应的第一数据终端;
在接收到所述最优分割点时,所述第一数据终端将所述最优分割点发送至第二数据终端保存,且对所述待处理节点进行分裂得到两个新的待处理节点,其中,所述第二数据终端为各数据终端中用于保存梯度树模型的数据终端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810918868.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于特征向量和笔顺编码的汉字字形相似算法
- 下一篇:车辆检测方法及装置