[发明专利]提高梯度提升树模型的特征值作用和防止过拟合的方法在审
申请号: | 201910274219.3 | 申请日: | 2019-04-08 |
公开(公告)号: | CN110232448A | 公开(公告)日: | 2019-09-13 |
发明(设计)人: | 杨萃;黄晓鸿 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拟合 离散化 分裂点 树模型 决策树模型 人工智能 大数定理 输出目标 输入特征 损失函数 图像识别 语音识别 真实分布 权重和 偏置 应用 筛选 预测 广告 表现 | ||
本发明公开了提高梯度提升树模型的特征值作用和防止过拟合的方法。本发明通过将离散化前特征值添加到损失函数中,最终得到最佳分裂点及特征值权重和偏置,进一步尽可能多地利用离散化前的数据。对于输入特征与输出目标相关性较强的数据,模型表现性能相对于梯度提升树有较大的提升;本发明还给出了一种t分布防止过拟合方式,通过大数定理筛选分裂点,在实际应用中可以通过该方式找到更加准确的分裂点,防止过拟合。本发明解决了梯度决策树模型只考虑特征值离散化后的大小,而不会考虑离散化前特征值数值的真实分布以及过拟合问题。本发明可广泛应用于广告预测、人工智能、图像识别、语音识别等各个方面。
技术领域
本发明涉及机器学习算法模型,具体涉及一种解决梯度提升树模型对特征值数值不敏感的问题,同时添加新的防止模型过拟合的方法。
背景技术
随着大数据的迅速发展,数据挖掘技术已经广泛应用于广告预测、人工智能、图像识别、语音识别等各个方面。梯度提升树算法相比于其他的机器学习模型算法具有一定的优越性。首先梯度提升树训练速度快,其次可以从训练好的模型中分析各个特征的重要性及相互关系,进一步提取新特征。
然而,现在已有的梯度提升树算法如XGBoost,Lightgbm等在使用中存在着制约其发展的根本问题,即梯度提升树只考虑特征值离散化后的大小,而不会考虑离散化前特征值数值的真实分布。在构建梯度提升树时,梯度提升树模型会先将特征值(连续值)分割成各个离散值,然后从各个离散的值中寻找分裂点,在这个过程当中,模型只考虑特征值离散化后的大小,这种方式会使得模型在对数据进行离散化后就损失数据的部分信息,例如,当某特征值大小为:0.1,0.2,0.3,0,4,0.5,0.5,0.5,1.6,1.7,1.8,当对特征值离散化时,假设分割点个数为2,可以找到分裂点为:0.45,0.55,从而特征值离散化为: 0,0,0,0,1,1,1,2,2,2。在这个过程中,梯度提升树只关心离散化后的值,而忽略了其离散化前数据的真实分布。
本改进模型也需要对数据进行离散化,但在对数据离散化后会进一步尽可能多地利用离散化前的数据,尽可能多地利用该部分损失的信息。
发明内容
本发明的目的在于解决现有技术存在的上述不不足,提供了一种提高梯度提升树模型的特征值作用和防止过拟合的方法。
本发明解决上述问题所采用的技术方案如下。
一种提高特征值作用和防止过拟合的梯度提升树模型,具体包括以下步骤:
步骤1:对样本集D确定模型的输入特征xij和输出变量yi,其中i表示第i个样本,j表示第j个特征,假定样本个数为n,特征值个数为m。定义损失函数,损失函数可选为logloss 或MSE,但不限于此。
步骤2:对特征值xij进行归一化。
步骤3:对预测值初始化为yi的平均值
步骤4:对特征值xij离散化得出所有的分裂点,分裂点个数为s。
步骤5:计算输入样本的一阶偏导gi和二阶偏导hi。
步骤6:在第k个叶子节点上(如果k为0,D0=D),对于每一个分裂点,该叶子节点的样本Dk会预分裂为左样本L和右样本R,其中L+R=Dk,遍历所有分裂点,计算左样本 L和右样本R的所有特征值的特征值权重w1、特征值偏置w2及对应的分裂增益gain。此时会得到s份左样本L和右样本R,s×m个特征值权重w1、特征值偏置w2及对应的分裂增益 gain。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910274219.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:法律案件深度推理方法
- 下一篇:一种收费站机电设备的智能运维系统及方法