[发明专利]模型训练方法、装置、电子设备及可读存储介质在审
申请号: | 201910271480.8 | 申请日: | 2019-04-04 |
公开(公告)号: | CN109978179A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 赵呈路;李雪 | 申请(专利权)人: | 拉扎斯网络科技(上海)有限公司 |
主分类号: | G06N20/20 | 分类号: | G06N20/20 |
代理公司: | 北京智信四方知识产权代理有限公司 11519 | 代理人: | 吕雁葭;宋海龙 |
地址: | 200333 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基模型 训练数据 可读存储介质 电子设备 模型训练 组合模型 组合系数 模型训练过程 模型参数 贪心算法 自动确定 准确率 | ||
1.一种模型训练方法,其特征在于,包括:
获取第一训练数据和第二训练数据;
基于所述第一训练数据训练多个基模型,确定各个基模型的模型参数;
基于所述第二训练数据,通过贪心算法确定组合模型中使用的基模型和所使用的基模型的相应组合系数。
2.根据权利要求1所述的方法,其特征在于:
所述多个基模型包括至少一个线性模型和/或至少一个非线性模型。
3.根据权利要求2所述的方法,其特征在于:
所述线性模型包括逻辑回归模型;和/或
所述非线性模型包括极端梯度提升模型、因子分解机和随机森林中的至少一个。
4.根据权利要求2所述的方法,其特征在于,所述基于第一训练数据训练多个基模型,包括:
使用梯度提升树模型处理所述第一训练数据,得到中间训练数据;
去除所述中间训练数据中的低相关特征,得到第三训练数据;
基于所述第三训练数据训练所述多个基模型。
5.根据权利要求4所述的方法,其特征在于:
所述基于第一训练数据训练多个基模型,包括基于所述第一训练数据训练所述多个基模型中的非线性模型;和/或
所述基于所述第三训练数据训练所述多个基模型,包括基于所述第三训练数据训练所述多个基模型中的线性模型。
6.根据权利要求1所述的方法,其特征在于,所述基于第二训练数据,通过贪心算法确定组合模型中使用的基模型及所述使用的基模型的相应系数,包括:
基于所述第二训练数据,确定所述多个基模型中性能最优的第一模型,将所述第一模型作为组合模型;
逐步增加所述组合模型中的基模型数量,直到加入新的基模型不再提升模型组合的性能,或者所述组合模型中的基模型数量等于所述多个基模型的总数,其中,每次加入组合模型的基模型为使得加入所述基模型之后的组合模型性能最优的基模型,确定加入所述基模型之后的组合模型中各基模型的组合系数;
输出所述组合模型中使用的基模型及所述使用的基模型的相应组合系数。
7.根据权利要求1所述的方法,其特征在于,还包括:
去除原始数据中的低相关特征,得到预处理数据;
通过对所述预处理数据进行随机切分或按时间切分,得到所述第一训练数据、所述第二训练数据和测试数据。
8.一种模型训练装置,其特征在于,包括:
获取模块,被配置为获取第一训练数据和第二训练数据;
第一确定模块,被配置为基于所述第一训练数据训练多个基模型,确定各个基模型的模型参数;
第二确定模块,被配置为基于所述第二训练数据,通过贪心算法确定组合模型中使用的基模型和所使用的基模型的相应组合系数。
9.一种电子设备,其特征在于,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-7任一项所述的方法步骤。
10.一种可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-7任一项所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于拉扎斯网络科技(上海)有限公司,未经拉扎斯网络科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910271480.8/1.html,转载请声明来源钻瓜专利网。