[发明专利]一种特殊初值的XGBoost类方法及相关设备在审
申请号: | 202110740739.6 | 申请日: | 2021-07-03 |
公开(公告)号: | CN115563442A | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 杨光 | 申请(专利权)人: | 杨光 |
主分类号: | G06F17/15 | 分类号: | G06F17/15;G06Q10/04;G06Q40/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特殊 初值 xgboost 方法 相关 设备 | ||
本发明公开了一种特殊的XG Boost类方法,在XG Boost类方法中用待估变量或待估参数的极大似然估计值为初始迭代值,使得XG Boost类方法的收敛速度更快。相比0初值,当训练轮数较少时,能有效防止过拟合同时达到一定的预测精度。当有特殊取值范围限定时,极大似然估计初始迭代值和一个较小的收缩尺度因子η能使XG Boost类方法在迭代过程中始终保持实际意义。同时,公开了相关的计算机设备。
技术领域
本发明涉及机器学习技术,具体涉及大数据分析方法。
背景技术
1.XGBoost方法。
XGBoost方法是一种极限梯度提升树方法,其预测性能优异,在很多领域都取得了非常好的成绩。
该方法的主要过程描述如下:
一个样本集
D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),
有m个特征,n个样本。
一个集成树模型,用K颗树函数相加得到预测结果。
其中F={f(x)=ωq(x)}(q:Rm→T,ω∈RT)是回归树空间。q表示每棵树的结构,把一个样本映射到对应的叶子结点。T是一颗树的叶子结点的个数。每个fk对应一个独立的树结构q及其叶子权重ω。每一颗回归树的每一个叶子结点都有一个连续值得分,用ωi表示第i个叶子结点的得分。为了学习模型中的这些树函数,最小化下面的正则化目标:
其中,
l是可导凸函数,表示损失函数。Ω(fk)是正则项。
XGBoost算法用提升树算法去最小化目标函数,假设是第i个样本的第t次迭
代的预测值,将其加上一个ft,最小化如下目标函数:
在一般情况下,为了快速优化目标函数。用二阶泰勒展开对其做近似:
其中,将常数项移除,得到第t次迭代的目标函数:
定义Ij={i|q(xi)=j}是划分到叶子结点j的样本点的集合,重写得到
对一个固定的树结构q(x),求对每一个ωj的偏导数等于0的ωj值,得到叶子结点j的最优权重得分:
最优目标函数值为:
树结构q采用贪婪算法求得,迭代的从一个单一的叶子结点开始添加分枝。
假设IL和IR表示分裂后的左右结点的样本集,I=IL∪IR。
分裂后的目标函数的减少值由下式给出:
此公式用来计算候选划分点。
绝大部分地,即的初始迭代值设定为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杨光,未经杨光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110740739.6/2.html,转载请声明来源钻瓜专利网。