[发明专利]基于动态抽样的梯度提升决策树模型构建优化方法在审
申请号: | 202110632129.4 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113537497A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 李晖;周彧;李一水 | 申请(专利权)人: | 贵州优联博睿科技有限公司 |
主分类号: | G06N5/00 | 分类号: | G06N5/00;G06N20/20;G06F9/50 |
代理公司: | 北京华创智道知识产权代理事务所(普通合伙) 11888 | 代理人: | 彭随丽 |
地址: | 550081 贵州省贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 抽样 梯度 提升 决策树 模型 构建 优化 方法 | ||
本发明涉及基于动态抽样的梯度提升决策树模型构建优化方法,包括以下步骤:将动态抽样应用于提升算法中;对面向树提升算法进行特征抽样;确定面向提升算法的动态抽样策略。本发明提供将应用基于Massart不等式的动态抽样技术构建GBDT模型以进一步加速训练过程,在保证模型准确性的前提下使用更少的样本量来构建模型,基于GBDT的特征贡献指标设计并实现特征抽样算法,减小模型构建过程中所需搜索的空间。
技术领域
本发明涉及大数据技术领域,尤其涉及基于动态抽样的梯度提升决策树模型构建优化方法。
背景技术
规模日益庞大的数据集为高效开展挖掘工作带来巨大挑战。梯度提升决策树(Gradient Boosting Decision Tree,GBDT)由于高效、易解释、预测能力强等特点被广泛应用于机器学习与数据挖掘任务。为了进一步增强GBDT模型的可扩展性、加速模型学习过程,现有的GBDT工具均采用有放回抽样作为行抽样策略达到减小数据规模的目的;并利用简单随机抽样作为特征抽样方法以减小GBDT模型构建时的搜索空间。对此,Chernoff/Hoeffding界常用来为抽样方案估计构建模型所需的样本量,但该方法容易过高估计所需样本量。上述的列抽样方法在选择特征样本子集时未考虑任何先验信息,存在无法选取具有足够代表性的特征入样问题。
动态抽样技术由于参数配置简单、能够更加精确的估计样本量等特点为改进GBDT行抽样中存在的上述问题提供了可行的解决方案;此外,通过利用GBDT模型构建时生成的“特征重要性”信息,为改进GBDT中特征抽样算法提供了可用的先验信息。
目前现有的面向提升算法的基于样本权重的抽样技术不完全适用于GBDT。对此,LightGBM提出一个新的基于梯度的单侧抽样技术(Gradient-based One Side Sampling,GOSS),根据GBDT信息增益的定义,样本实例的梯度值与该实例对模型输出的贡献程度成正比。GOSS基于这一点通过剔除部分对模型损失影响较小的样本来进行抽样。实验证明了在同样的抽样比下,基于GOSS得到的样本模型准确性高于均匀随机抽样。LightGBM将抽样率作为用户参数来确定抽样算法抽取的样本大小,但由于合适的样本大小往往难以确定,用户常常基于直觉配置参数。对此,数据挖掘领域的静态抽样方案设计中常常使用Chernoff界、Hoeffding界来估计样本大小,虽然解决了需要对样本量参数进行配置的问题,但由于没有与挖掘工具结合起来,不能较为准确的反应模型训练所需的样本量,在实际应用中,常常导致抽取过多不必要的数据样本。
发明内容
本发明的目的在于提供基于动态抽样的梯度提升决策树模型构建优化方法,提供将应用基于Massart不等式的动态抽样技术构建GBDT模型以进一步加速训练过程,在保证模型准确性的前提下使用更少的样本量来构建模型,基于GBDT的特征贡献指标设计并实现特征抽样算法,减小模型构建过程中所需搜索的空间,可以解决背景技术中的问题。
为了解决上述技术问题,本发明提供的基于动态抽样的梯度提升决策树模型构建优化方法的技术方案具体如下:
本发明实施例公开了基于动态抽样的梯度提升决策树模型构建优化方法,包括以下步骤:
将动态抽样应用于提升算法中;
对面向树提升算法进行特征抽样;
确定面向提升算法的动态抽样策略。
在上述任一方案中优选的是,动态抽样的算法执行流程包括以下步骤:
根据当前对p的估计来确定是否获取到足够样本;
m用于统计迄今为止满足B(x)=1的样本数量,n用于统计迄今为止所有样本数量;
动态抽样算法持续执行抽样,直到当前样本集合中包含满足B(x)=1的样本数量超过A为止,A依赖于预设的准确性参数和可靠性参数,在较为复杂的抽样方案中,A的大小也取决于
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州优联博睿科技有限公司,未经贵州优联博睿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110632129.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于脑连接结构的癫痫脑电识别系统
- 下一篇:一种服务订阅系统