[发明专利]构建GBDT模型的方法、装置及预测方法、装置有效
申请号: | 201910526406.6 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110348580B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 王海;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 苏银虹;曾世骁 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 gbdt 模型 方法 装置 预测 | ||
本发明公开了构建梯度提升决策树GBDT模型的方法及装置,涉及机器学习技术领域,主要目的在于解决现有的所训练的决策树模型的准确率较低的问题。本发明主要的技术方案为:获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;在训练GBDT模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树GBDT模型。本发明用于对梯度提升决策树的构建过程中。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种构建梯度提升决策树GBDT模型的方法、装置以及利用该模型进行预测的方法、装置。
背景技术
随着技术的不断进步,人工智能技术也逐步发展。其中,机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。不论是训练机器学习模型,还是利用训练好的机器学习模型进行预测,数据都需要转换为包括各种特征的机器学习样本。
目前,在现实应用中,数据的获取是相对容易的,而对数据的标记则需要花费较高的人力、物力等资源,因此往往在某个数据集中会存在少量已标记的数据,记作正样本,以及大量未标记的数据。对于这种情况,一般会选择使用PU学习(Positive and unlabeledlearning,简称PU Learning)结合梯度提升决策树算法进行决策树模型的训练,例如选取GBDT算法来根据样本数据训练对应的梯度提升决策树的GBDT模型。
然而,在实际应用中,在通过训练基于PU学习的决策树模型时,基于样本数据中已标记的“正样本”较少,大部分为未标记的数据,因此,在训练梯度提升决策树模型时极为容易出现“过拟合”现象,其中,过拟合是指为了得到一致假设而使假设变得过度严格的现象,从而导致现有方式所训练出的决策树模型的准确率较低。
发明内容
鉴于上述问题,本发明提出了一种构建梯度提升决策树GBDT模型的方法及装置,主要目的在于解决现有的所训练的决策树模型的准确率较低的问题,提高训练出的模型的准确率。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供一种构建梯度提升决策树GBDT模型方法,具体包括:
获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;
在训练GBDT模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树GBDT模型。
可选的,所述基于所述样本数据集中的正样本数据构建一个正样本训练子集包括:
取所述样本数据集中的所有正样本数据构建一个正样本训练子集;
或者,
取所述样本数据集中的部分正样本数据构建一个正样本训练子集。
可选的,当正负样本比例已知的业务场景下,预估负样本数据量与正样本数据量比例为x时,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的x倍;当正负样本比例未知的业务场景下,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的1至2倍。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910526406.6/2.html,转载请声明来源钻瓜专利网。