[发明专利]模型训练方法、装置、电子设备及可读存储介质在审
申请号: | 201910271480.8 | 申请日: | 2019-04-04 |
公开(公告)号: | CN109978179A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 赵呈路;李雪 | 申请(专利权)人: | 拉扎斯网络科技(上海)有限公司 |
主分类号: | G06N20/20 | 分类号: | G06N20/20 |
代理公司: | 北京智信四方知识产权代理有限公司 11519 | 代理人: | 吕雁葭;宋海龙 |
地址: | 200333 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基模型 训练数据 可读存储介质 电子设备 模型训练 组合模型 组合系数 模型训练过程 模型参数 贪心算法 自动确定 准确率 | ||
本公开实施例公开了一种模型训练方法、装置、电子设备及可读存储介质,所述方法包括获取第一训练数据和第二训练数据,基于所述第一训练数据训练多个基模型,确定各个基模型的模型参数,基于所述第二训练数据,通过贪心算法确定组合模型中使用的基模型和所使用的基模型的相应组合系数。该技术方案能够自动确定组合模型中使用的基模型和所使用的基模型的相应组合系数,可以提高模型训练过程中的调参效率,提高模型的准确率和客观性。
技术领域
本公开涉及计算机技术领域,具体涉及一种模型训练方法、装置、电子设备及可读存储介质。
背景技术
为了提高机器学习中模型的预测精度,技术人员通常采用将多个基模型进行组合,来提高模型的泛化能力。
在提出本公开的过程中,发明人发现,现有技术中的模型组合常常需要技术人员先对多个基模型分别训练,再对训练后的多个基模型进行选择、组合,并对模型组合进行训练以调整模型组合的参数,使得现有的模型训练耗时费力,严重影响了模型训练的效率。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种模型训练方法、装置、电子设备及可读存储介质。
第一方面,本公开实施例提供一种模型训练方法。
具体地,所述模型训练方法,包括:
获取第一训练数据和第二训练数据;
基于所述第一训练数据训练多个基模型,确定各个基模型的模型参数;
基于所述第二训练数据,通过贪心算法确定组合模型中使用的基模型和所使用的基模型的相应组合系数。
结合第一方面,本公开在第一方面的第一种实现方式中,所述多个基模型包括至少一个线性模型和/或至少一个非线性模型。
结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述线性模型包括逻辑回归模型;和/或
所述非线性模型包括极端梯度提升模型、因子分解机和随机森林中的至少一个。
结合第一方面的第一种实现方式,本公开在第一方面的第三种实现方式中,所述基于第一训练数据训练多个基模型,包括:
使用梯度提升树模型处理所述第一训练数据,得到中间训练数据;
去除所述中间训练数据中的低相关特征,得到第三训练数据;
基于所述第三训练数据训练所述多个基模型。
结合第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,所述基于第一训练数据训练多个基模型,包括基于所述第一训练数据训练所述多个基模型中的非线性模型;和/或
所述基于所述第三训练数据训练所述多个基模型,包括基于所述第三训练数据训练所述多个基模型中的线性模型。
结合第一方面,本公开在第一方面的第五种实现方式中,所述基于第二训练数据,通过贪心算法确定组合模型中使用的基模型及所述使用的基模型的相应系数,包括:
基于所述第二训练数据,确定所述多个基模型中性能最优的第一模型,将所述第一模型作为组合模型;
逐步增加所述组合模型中的基模型数量,直到加入新的基模型不再提升模型组合的性能,或者所述组合模型中的基模型数量等于所述多个基模型的总数,其中,每次加入组合模型的基模型为使得加入所述基模型之后的组合模型性能最优的基模型,确定加入所述基模型之后的组合模型中各基模型的组合系数;
输出所述组合模型中使用的基模型及所述使用的基模型的相应组合系数。
结合第一方面,本公开在第一方面的第六种实现方式中,所述模型训练方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于拉扎斯网络科技(上海)有限公司,未经拉扎斯网络科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910271480.8/2.html,转载请声明来源钻瓜专利网。