[发明专利]一种基于动态权重D-XGBoost模型的预测方法及系统在审
申请号: | 202110047429.6 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112766356A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 卢宇彤;蓝嘉璐;陈志广 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳市创富知识产权代理有限公司 44367 | 代理人: | 高冰 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 权重 xgboost 模型 预测 方法 系统 | ||
1.一种基于动态权重D-XGBoost模型的预测方法,其特征在于,包括以下步骤:
获取数据集并对数据集中的数据进行格式统一,得到统一的数据;
对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集;
基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测。
2.根据权利要求1所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集这一步骤,其具体包括:
基于主成分分析法对统一的数据进行数据降维,得到降维后的数据;
基于最邻近规则算法对降维后的数据进行数据清洗,得到少数类样本集;
基于合成少数类过采样技术对少数类样本集进行过采样处理,得到预处理后的数据集。
3.根据权利要求2所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述基于主成分分析法对统一的数据进行数据降维,得到降维后的数据这一步骤,其具体包括:
从统一的数据中采集出p维随机向量X=(X1,X2,...,Xp)T,并构造样本矩阵;
对样本矩阵进行均值归零化处理,得到标准化矩阵;
计算标准化矩阵的自相关矩阵;
计算自相关矩阵的单位特征向量并根据单位特征向量转换选取主成分,得到降维后的数据。
4.根据权利要求3所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述基于合成少数类过采样技术对少数类样本集进行过采样处理,得到预处理后的数据集这一步骤,其具体包括:
对少数类样本集中的少数类样本x,以欧氏距离为标准计算该样本到少数类样本集中所有样本的距离,得到对应的n个近邻;
根据样本不平衡比例设置采样比例并确定采样倍率N;
对于少数类样本x,基于采样倍率从对应的n个近邻中随机选择若干个样本,得到对应选择的近邻xn;
对于近邻xn,分别与原样本集合构建新样本,得到预处理后的数据集。
5.根据权利要求4所述一种基于动态权重DΩXGBoost模型的预测方法,其特征在于,所述对于近邻xn,分别与原样本集合构建新样本这一步骤的具体计算公式如下:
上式中,xnew为新样本的坐标值,为所有样本均值,x为当前样本坐标值,rand(0,1)为范围为0到1的随机数。
6.根据权利要求5所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测这一步骤,其具体包括:
基于DBSCAN算法将预处理后的数据集划分为具有共同特征的多个数据簇;
对于数据簇建立XGBoost树模型进行参数预测,得到对应的预测结果和样本权重;
根据预测结果迭代更新样本权重;
判断到迭代次数大于预设值,得到最终预测结果。
7.根据权利要求6所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述对于数据簇建立XGBoost树模型进行参数预测,得到对应的预测结果和样本权重这一步骤,其具体包括:
对于数据簇建立XGBoost树模型进行参数预测;
循环添加树并拟合上一颗树的预测残差,得到对应树的预测结果;
在XGBoost模型中引入自定义的动态权重策略,得到对应轮次的样本权重。
8.根据权利要求7所述一种基于动态权重D-XGBoost模型的预测方法,其特征在于,所述对应树的预测结果的计算公式如下:
上式中,t表示树的轮次,为第t棵树的预测结果,为第t-1棵树的预测结果,ft(xi)为上一颗树的预测残差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110047429.6/1.html,转载请声明来源钻瓜专利网。