[发明专利]集成学习中有偏数据下基于多步标签变换的Boosting改进方法在审

专利信息
申请号: 201810108192.6 申请日: 2018-02-02
公开(公告)号: CN108399457A 公开(公告)日: 2018-08-14
发明(设计)人: 孙红光;盛敏;李伟民;史琰;李建东;文娟;张琰;刘俊宇 申请(专利权)人: 西安电子科技大学
主分类号: G06N99/00 分类号: G06N99/00
代理公司: 西安长和专利代理有限公司 61227 代理人: 黄伟洪
地址: 710071 陕西省*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标签变换 拟合 训练数据集 集成学习 算法 测试数据集 测试数据 过程迭代 阶段训练 数据识别 算法系统 训练过程 预测结果 原始标签 多阶段 反变换 分阶段 预测 残差 鲁棒 样本 改进 压缩 缓解 检测 表现
【说明书】:

发明属于数据识别技术领域,公开了一种集成学习中有偏数据下基于多步标签变换的Boosting改进方法,准备训练数据集,测试数据集;针对训练数据集样本原始标签进行有偏性检测和标签变换;采用多阶段标签变换的方式进行Boosting过程迭代,每个阶段训练结束,计算当前阶段下拟合残差,满足变换指标时,进行sigmod压缩变换与boxcox变换;通过及时停止机制确定拟合阶段数目,完成训练过程;通过分阶段对测试数据预测和反变换完成预测过程,得到预测结果。本发明充分缓解了数据有偏性对算法系统带来的影响,提升了算法的灵活性,一定程度上提升了Boosting算法的拟合能力,使得算法表现更加鲁棒。

技术领域

本发明属于数据识别技术领域,尤其涉及一种集成学习中有偏数据下基于多步标签变换的Boosting改进方法。

背景技术

目前,业内常用的现有技术是这样的:Boosting是一族可将弱学习器提升为强学习器的算法,是集成学习的重要代表分支,这族算法的工作机制类似,即先从初始训练集训练出一个基学习器,然后再根据基学习器的表现训练下一个基学习器,直至基学习器的数目达到事先指定的值T,最终将这T个基学习器进行加权结合。目前典型的Boosting代表算法有Gradient Boost Decision Tree(GBDT),Extreme Gradient Boosting(XGBoost)等。Boosting算法具有较强的鲁棒性,精确度,并且由于迭代过程中Boosting算法通常会引入样本采样,特征采样,附加正则项等机制因而具有较好的抗过拟合性能。而在回归任务中,真实的工业级数据数据分布通常呈现较强的有偏性和长尾性,这种数据特性会造成算法性能的退化。性能退化的原因主要有几个方面,以Boosting算法机制中的GBDT算法为例,首先,GBDT的预测值由叶子节点的值决定,而叶子节点的值为落在此节点上训练样本标签的均值,当数据存在较强的有偏性和长尾性时,样本均值便不能准确地刻画叶子节点用本数据的分布特性,从而造成算法性能的退化。另一方面,GBDT算法通过迭代依次构造每个弱学习器,每一个新的决策树的建立用于拟合当前模型损失函数的残差,这种方式以残差为拟合目标,较好地提升了预测精度,但是,这种方式也存在这一定的盲目性,当残差存在有偏或长尾时乏即时的数据修正策略,导致误差在迭代的过程中不断累积,从而造成算法性能的退化。上述问题,在XGBoost算法中也同样存在。

综上所述,现有技术存在的问题是:Boosting算法在迭代过程中由于数据的有偏性会增加预测任务难度,降低模型学习能力,降低预测精度。

解决上述技术问题的难度和意义:

首先真实工业界数据分布呈现多样性,单一的公式变换很难以处理多种有偏性情况,此外Boosting算法在拟合的过程中,存在有偏或长尾时缺乏即时的数据修正策略,且不同的修正策略往往对数据有着相关的要求,如果不进行对应变换,修正策略无法进行下去,进行对应变换往往会造成对数据的强行映射,使得数据内在统计规律遭到破坏,影响后续算法拟合能力,更无法提升预测精度,如何合理进行数据分布修正,并且保证算法的拟合能力是至关重要的。Boosting算法以GBDT算法为例,基于拟合损失函数的残差方向建立下一棵决策树,整个决策树群建立的过程是一个紧耦合的过程,改变某阶段拟合残差则会影响到后续所有决策树的建立,如何在通过模式化的解耦合来达到灵活调整数据标签分布的目的,并且缓解有偏性的累积来保证算法拟合效果,提升预测精度是具有调战的。

发明内容

针对现有技术存在的问题,本发明提供了一种集成学习中有偏数据下基于多步标签变换的Boosting改进方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810108192.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top