[发明专利]基于特征抽取的多模型训练方法及系统、电子设备和介质在审
申请号: | 202011025657.5 | 申请日: | 2020-09-25 |
公开(公告)号: | CN111967615A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 周洋杰;陈亮辉;方军;付琰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F21/60 |
代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 姜浩然;吴丽丽 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 抽取 模型 训练 方法 系统 电子设备 介质 | ||
1.一种基于联邦特征抽取的多模型训练方法,包括:
训练树模型,该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个所述合作方合作训练出的,其中与每一个所述合作方的数据传输均以加密的形式进行;
对所述训练的树模型进行特征重要性评估,以对每一个树模型生成的特征列赋予相应的权重;
响应于第一合作方训练线性模型,将与所述第一合作方共同的第一用户样本的数据输入到与所述第一合作方相对应的树模型以及与第二合作方相对应的树模型中,以得到多个独热编码的特征列,其中所述第二合作方为所述多个合作方中除所述第一合作方之外的其他一个或多个合作方;以及
基于所述权重对所得到的特征列进行筛选,以根据所述筛选后的特征列和所述第一用户样本的数据训练与所述第一合作方相对应的线性模型。
2.如权利要求1所述的方法,训练树模型,该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个所述合作方合作训练出的,其中与每一个所述合作方的数据传输均以加密的形式进行包括:
接收所述多个合作方基于加密算法各自生成的公钥,以基于相应的公钥加密需要传输的数据;
接收所述合作方基于其生成的公钥加密后的导数,以计算对应分箱下的梯度和;以及
将所述梯度和传输到所述合作方,使得所述合作方通过基于所述加密算法生成的私钥解密所述梯度和,以训练双方的树模型。
3.如权利要求1所述的方法,基于所述权重对所得到的特征列进行筛选,以根据所述筛选后的特征列和所述第一用户样本的数据训练与所述第一合作方相对应的线性模型包括:
选择通过与所述第一合作方相对应的树模型所得到的特征列,以将所述选择的特征列与所述第一用户样本的数据组成第一数据集;
对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选,以将所述筛选的特征列与所述第一数据集组成第二数据集;以及
基于所述第二数据集训练与所述第一合作方相对应的线性模型。
4.如权利要求3所述的方法,对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选,以将所述筛选的特征列与所述第一数据集组成第二数据集包括:
将通过与所述第二合作方相对应的树模型所得到的特征列中过滤掉其权重小于第一阈值的特征列,以得到第一剩余特征列;
将所述第一剩余特征列中的两两特征列组成的特征列对进行相关性分析;
确定其相关系数大于第二阈值的所有特征列对,以将其相关系数不大于所述第二阈值的所有特征列对组成第二剩余特征列;以及
选择所述确定的其相关系数大于所述第二阈值的每一个特征列对中的权重值较大的特征列,以将所述选择的特征列与所述第二剩余特征列作为所述筛选的特征列。
5.如权利要求3所述的方法,对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选,以将所述筛选的特征列与所述第一数据集组成第二数据集包括:
分别设定与所述第二合作方相对应的树模型的各自的权重阈值;
将通过与所述第二合作方相对应的树模型所得到的特征列根据其各自的权重阈值进行过滤,以过滤掉其权重小于其相应权重阈值的特征列,从而得到第一剩余特征列;
将所述第一剩余特征列中的两两特征列组成的特征列对进行相关性分析;
确定其相关系数大于第二阈值的所有特征列对,以将其相关系数不大于所述第二阈值的所有特征列对组成第二剩余特征列;以及
选择所述确定的其相关系数大于所述第二阈值的每一个特征列对中的权重值较大的特征列,以将所述选择的特征列与所述第二剩余特征列作为所述筛选的特征列。
6.如权利要求2所述的方法,其中,所述加密算法包括以下中的一个:RSA算法、Pailler算法。
7.如权利要求1所述的方法,所述树模型包括以下中的一个:XGBoost模型、LightGBM模型。
8.如权利要求1所述的方法,所述线性模型包括以下中的一个:逻辑回归LR模型、泊松PR模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011025657.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种碾米机
- 下一篇:盐酸托莫西汀口服溶液及其制备方法