[发明专利]一种纵向联邦模型训练方法及系统在审
申请号: | 202210916876.5 | 申请日: | 2022-08-01 |
公开(公告)号: | CN115169586A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 周筝;陈少伟;阮安邦 | 申请(专利权)人: | 北京八分量信息科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F21/71 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 胡晓静 |
地址: | 100102 北京市朝阳区崔*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 纵向 联邦 模型 训练 方法 系统 | ||
本发明公开了一种纵向联邦模型训练方法及系统,应用于有标签的第一数据方,该方法包括:通过基于标签计算所有样本的样本特征梯度;接收第二数据方发送的特征排序表;将样本特征梯度和特征排序表进行整合得到梯度统计信息;根据梯度统计信息和特征标识对第一数据方的模型进行更新。本发明仅通过己方的样本特征梯度和第二数据方的特征排序表就可以实现对己方模型的训练,避免了现有的联邦算法中多次重复加密解密的操作简化了模型训练的过程,同时减少了的通讯次数提高了训练效率,由于不存在多次数据往来,降低了数据往来过程中数据泄露的风险,提高了安全性。
技术领域
本发明涉及联邦学习技术领域,具体涉及一种纵向联邦模型训练方法及系统。
背景技术
互联网、大数据、人工智能等科技的迅猛发展为大众生活带来了便捷与高效,与此同时伴随而至的是对海量数据的产生,数据资产的膨胀。数据的开发利用、价值挖掘、跨境流动等生产活动给数据安全或个人信息保护带来了巨大的挑战,可能伴随着危害国家安全、公共利益或个人隐私权益等一系列风险。
联邦学习(Federated Learning,FL)是一个机器学习框架,这个框架在满足数据隐私和安全,以及政府法规的前提下,通过联合多个参与方的数据来实现机器学习建模,能有效解决“数据孤岛”问题。
联邦学习可以使用多方数据实现多方共同建模,其有助于打破“数据孤岛”局面,同时能大大提升数据流通以及机器学习模型的能力,但是现有的联邦学习过程中,仍然存在多方数据流通所产生的大量通讯时间消耗,降低了运行算效率、数据隐私泄密风险高、模型预测结果准确性低等问题。
发明内容
有鉴于此,本发明实施例提供了一种纵向联邦模型训练方法,以解决现有技术中精度低效率差且存在安全隐患的问题。
为达到上述目的,本发明提供如下技术方案:
本发明实施例提供了一种纵向联邦模型训练方法,应用于有标签的第一数据方,包括:
基于标签计算所有样本的样本特征梯度;
接收第二数据方发送的特征排序表,所述特征排序表是第二数据方对自身的特征数据进行分析,得到特征标识;将所有特征标识按照所述特征数据的特征值的大小进行排序得到的;
将所述样本特征梯度和特征排序表进行整合得到梯度统计信息;
根据梯度统计信息和所述特征标识对第一数据方的模型进行更新。
可选的,所述将所述样本特征梯度和特征排序表进行整合得到梯度统计信息,包括:
获取每个样本特征梯度的特征标识;
将所述特征标识与所述特征排序表中的特征标识列进行比对,得到样本特征梯度的排列顺序;
根据所述排列顺序将所述样本特征梯度进行排序,得到梯度统计信息。
可选的,所述根据梯度统计信息和所述特征标识对第一数据方的模型进行更新,包括:
根据所述特征标识从所述梯度统计信息中查找最优分裂点进行节点分裂直至末端节点;
根据所述样本特征梯度计算所述末端节点的权重信息;
基于所述权重信息对所有样本的样本特征梯度进行更新,并返回将所述样本特征梯度和特征排序表进行整合得到梯度统计信息的步骤,直至不满足预设的建树条件完成对第一数据方的模型的更新。
可选的,所述查找最优分裂点进行节点分裂的过程包括:
根据所述特征标识得到可作为分裂点的特征点;
从所述特征点中选取最优分裂点;
判断所述最优分裂点的来源;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京八分量信息科技有限公司,未经北京八分量信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210916876.5/2.html,转载请声明来源钻瓜专利网。