[发明专利]集成学习中有偏数据下基于多步标签变换的Boosting改进方法在审
申请号: | 201810108192.6 | 申请日: | 2018-02-02 |
公开(公告)号: | CN108399457A | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 孙红光;盛敏;李伟民;史琰;李建东;文娟;张琰;刘俊宇 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签变换 拟合 训练数据集 集成学习 算法 测试数据集 测试数据 过程迭代 阶段训练 数据识别 算法系统 训练过程 预测结果 原始标签 多阶段 反变换 分阶段 预测 残差 鲁棒 样本 改进 压缩 缓解 检测 表现 | ||
本发明属于数据识别技术领域,公开了一种集成学习中有偏数据下基于多步标签变换的Boosting改进方法,准备训练数据集,测试数据集;针对训练数据集样本原始标签进行有偏性检测和标签变换;采用多阶段标签变换的方式进行Boosting过程迭代,每个阶段训练结束,计算当前阶段下拟合残差,满足变换指标时,进行sigmod压缩变换与boxcox变换;通过及时停止机制确定拟合阶段数目,完成训练过程;通过分阶段对测试数据预测和反变换完成预测过程,得到预测结果。本发明充分缓解了数据有偏性对算法系统带来的影响,提升了算法的灵活性,一定程度上提升了Boosting算法的拟合能力,使得算法表现更加鲁棒。
技术领域
本发明属于数据识别技术领域,尤其涉及一种集成学习中有偏数据下基于多步标签变换的Boosting改进方法。
背景技术
首先真实工业界数据分布呈现多样性,单一的公式变换很难以处理多种有偏性情况,此外Boosting算法在拟合的过程中,存在有偏或长尾时缺乏即时的数据修正策略,且不同的修正策略往往对数据有着相关的要求,如果不进行对应变换,修正策略无法进行下去,进行对应变换往往会造成对数据的强行映射,使得数据内在统计规律遭到破坏,影响后续算法拟合能力,更无法提升预测精度,如何合理进行数据分布修正,并且保证算法的拟合能力是至关重要的。Boosting算法以GBDT算法为例,基于拟合损失函数的残差方向建立下一棵决策树,整个决策树群建立的过程是一个紧耦合的过程,改变某阶段拟合残差则会影响到后续所有决策树的建立,如何在通过模式化的解耦合来达到灵活调整数据标签分布的目的,并且缓解有偏性的累积来保证算法拟合效果,提升预测精度是具有调战的。
发明内容
针对现有技术存在的问题,本发明提供了一种集成学习中有偏数据下基于多步标签变换的Boosting改进方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810108192.6/2.html,转载请声明来源钻瓜专利网。