[发明专利]提高梯度提升树模型的特征值作用和防止过拟合的方法在审

专利信息
申请号: 201910274219.3 申请日: 2019-04-08
公开(公告)号: CN110232448A 公开(公告)日: 2019-09-13
发明(设计)人: 杨萃;黄晓鸿 申请(专利权)人: 华南理工大学
主分类号: G06N20/00 分类号: G06N20/00
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 何淑珍;江裕强
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 拟合 离散化 分裂点 树模型 决策树模型 人工智能 大数定理 输出目标 输入特征 损失函数 图像识别 语音识别 真实分布 权重和 偏置 应用 筛选 预测 广告 表现
【说明书】:

发明公开了提高梯度提升树模型的特征值作用和防止过拟合的方法。本发明通过将离散化前特征值添加到损失函数中,最终得到最佳分裂点及特征值权重和偏置,进一步尽可能多地利用离散化前的数据。对于输入特征与输出目标相关性较强的数据,模型表现性能相对于梯度提升树有较大的提升;本发明还给出了一种t分布防止过拟合方式,通过大数定理筛选分裂点,在实际应用中可以通过该方式找到更加准确的分裂点,防止过拟合。本发明解决了梯度决策树模型只考虑特征值离散化后的大小,而不会考虑离散化前特征值数值的真实分布以及过拟合问题。本发明可广泛应用于广告预测、人工智能、图像识别、语音识别等各个方面。

技术领域

本发明涉及机器学习算法模型,具体涉及一种解决梯度提升树模型对特征值数值不敏感的问题,同时添加新的防止模型过拟合的方法。

背景技术

随着大数据的迅速发展,数据挖掘技术已经广泛应用于广告预测、人工智能、图像识别、语音识别等各个方面。梯度提升树算法相比于其他的机器学习模型算法具有一定的优越性。首先梯度提升树训练速度快,其次可以从训练好的模型中分析各个特征的重要性及相互关系,进一步提取新特征。

然而,现在已有的梯度提升树算法如XGBoost,Lightgbm等在使用中存在着制约其发展的根本问题,即梯度提升树只考虑特征值离散化后的大小,而不会考虑离散化前特征值数值的真实分布。在构建梯度提升树时,梯度提升树模型会先将特征值(连续值)分割成各个离散值,然后从各个离散的值中寻找分裂点,在这个过程当中,模型只考虑特征值离散化后的大小,这种方式会使得模型在对数据进行离散化后就损失数据的部分信息,例如,当某特征值大小为:0.1,0.2,0.3,0,4,0.5,0.5,0.5,1.6,1.7,1.8,当对特征值离散化时,假设分割点个数为2,可以找到分裂点为:0.45,0.55,从而特征值离散化为: 0,0,0,0,1,1,1,2,2,2。在这个过程中,梯度提升树只关心离散化后的值,而忽略了其离散化前数据的真实分布。

本改进模型也需要对数据进行离散化,但在对数据离散化后会进一步尽可能多地利用离散化前的数据,尽可能多地利用该部分损失的信息。

发明内容

本发明的目的在于解决现有技术存在的上述不不足,提供了一种提高梯度提升树模型的特征值作用和防止过拟合的方法。

本发明解决上述问题所采用的技术方案如下。

一种提高特征值作用和防止过拟合的梯度提升树模型,具体包括以下步骤:

步骤1:对样本集D确定模型的输入特征xij和输出变量yi,其中i表示第i个样本,j表示第j个特征,假定样本个数为n,特征值个数为m。定义损失函数,损失函数可选为logloss 或MSE,但不限于此。

步骤2:对特征值xij进行归一化。

步骤3:对预测值初始化为yi的平均值

步骤4:对特征值xij离散化得出所有的分裂点,分裂点个数为s。

步骤5:计算输入样本的一阶偏导gi和二阶偏导hi

步骤6:在第k个叶子节点上(如果k为0,D0=D),对于每一个分裂点,该叶子节点的样本Dk会预分裂为左样本L和右样本R,其中L+R=Dk,遍历所有分裂点,计算左样本 L和右样本R的所有特征值的特征值权重w1、特征值偏置w2及对应的分裂增益gain。此时会得到s份左样本L和右样本R,s×m个特征值权重w1、特征值偏置w2及对应的分裂增益 gain。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910274219.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top