[发明专利]基于动态抽样的梯度提升决策树模型构建优化方法在审
申请号: | 202110632129.4 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113537497A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 李晖;周彧;李一水 | 申请(专利权)人: | 贵州优联博睿科技有限公司 |
主分类号: | G06N5/00 | 分类号: | G06N5/00;G06N20/20;G06F9/50 |
代理公司: | 北京华创智道知识产权代理事务所(普通合伙) 11888 | 代理人: | 彭随丽 |
地址: | 550081 贵州省贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 抽样 梯度 提升 决策树 模型 构建 优化 方法 | ||
1.基于动态抽样的梯度提升决策树模型构建优化方法,其特征在于:包括以下步骤:
将动态抽样应用于提升算法中;
对面向树提升算法进行特征抽样;
确定面向提升算法的动态抽样策略。
2.根据权利要求1所述的基于动态抽样的梯度提升决策树模型构建优化方法,其特征在于:动态抽样的算法执行流程包括以下步骤:
根据当前对p的估计来确定是否获取到足够样本;
m用于统计迄今为止满足B(x)=1的样本数量,n用于统计迄今为止所有样本数量;
动态抽样算法持续执行抽样,直到当前样本集合中包含满足B(x)=1的样本数量超过A为止,A依赖于预设的准确性参数和可靠性参数,在较为复杂的抽样方案中,A的大小也取决于
3.根据权利要求2所述的基于动态抽样的梯度提升决策树模型构建优化方法,其特征在于:所述对面向树提升算法进行特征抽样包括:
基于奇异值分解的抽样,利用特征重要性分数,根据各个特征对应分数的占比来对特征进行不等概率抽样,具体抽样方法包括以下步骤:
对矩阵A进行分解,在一组列上构造一个非均匀的重要性抽样分布,依据该概率分布模型对特征进行抽样;
另为一个由n个实例和d个特征构成的数据矩阵,且当n<<d时,该矩阵的秩满足r:=rank(A)≤n,并对A进行奇异值分解,即另A=U∑VT,其中表示包含了右奇异向量的集合;
其中,vi(j)表示第i个右奇异向量的第j个值。
4.根据权利要求3所述的基于动态抽样的梯度提升决策树模型构建优化方法,其特征在于:所述确定面向提升算法的动态抽样策略包括:
LightGBM算法库,其用于根据内部的模块并提供不同的服务,具体分为三大层:应用程序接口层、核心算法层、基础服务层,上层模块中的算法包依赖下层模块算法包提供的服务,其中,核心算法层中算法模块的运行均依赖下层提供的与通信、文件操作相关的基础服务,应用程序接口定义与用户的交互模式,向外提供访问接口,算法逻辑的执行依赖于下层实现;
基于Massart不等式的动态抽样,其抽样计算公式为:另p=E[X],为伯努利变量X的期望,另为n重伯努利试验成功的相对频率,对于任意的0z≤p,满足关系:对于任意的pz≤1,满足关系:
基于动态抽样的GBM实现,将Ph,S的初始值设置为0.5,用以计算第一轮迭代时所需抽取的样本大小,后续迭代使用前一轮迭代的预测准确率计算样本大小;
根据参数中抽样率按比例计算计算当前线程提取的样本大小,针对当前线程所需处理的索引区间进行抽样,将未/入样的数据索引写入预分配的全局临时索引缓冲区tmp_indices_buf,其中,入样数据的索引值从每个线程操作的内存区域的起始位置开始连续写入,未入样数据的索引值紧接存储入样数据索引的内存单元写入。
5.根据权利要求4所述的基于动态抽样的梯度提升决策树模型构建优化方法,其特征在于:LightGBM算法库包括三个参数,分别为:
第一参数featImportances用于存储所有特征于模型贡献的向量;
第二参数validFeatIndices用于存储特征实际索引为的向量,该向量的大小和featImportances具有相同的大小;
第三参数为需要入样的特征个数。
6.根据权利要求5所述的基于动态抽样的梯度提升决策树模型构建优化方法,其特征在于:还包括计算需要保留的具有高贡献量的特征个数,其中p由用户参数remain_feature_fraction指定,根据所有特征的贡献量按降序排序,返回排序完成后的特征实际索引位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州优联博睿科技有限公司,未经贵州优联博睿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110632129.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于脑连接结构的癫痫脑电识别系统
- 下一篇:一种服务订阅系统