[发明专利]一种基于动态权重D-XGBoost模型的预测方法及系统在审
申请号: | 202110047429.6 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112766356A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 卢宇彤;蓝嘉璐;陈志广 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳市创富知识产权代理有限公司 44367 | 代理人: | 高冰 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 权重 xgboost 模型 预测 方法 系统 | ||
本发明公开了一种基于动态权重D‑XGBoost模型的预测方法及系统,该方法包括:获取数据集并对数据集中的数据进行格式统一,得到统一的数据;对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集;基于动态权重策略的D‑XGBoost模型对预处理后的数据集进行参数预测。该系统包括:数据预处理模块和参数预测模块。通过使用本发明,避免了少数类样本容易与周围的多数类样本产生重叠难以分类的问题。本发明作为一种基于动态权重D‑XGBoost模型的预测方法及系统,可广泛应用于数据预测领域。
技术领域
本发明涉及数据预测领域,尤其涉及一种基于动态权重D-XGBoost模型的预测方法及系统。
背景技术
随着互联网的普及,各种数据的积累,大数据技术的兴起以及机器学习算法的飞速发展,使用机器学习的方法实现多来源、多种类数据的识别与预测越来越普遍。目前部分方法对数据预处理无法克服非平衡数据集的数据分布问题,容易产生分布边缘化问题,这种边界模糊性,虽然使数据集的平衡性得到了改善,但加大了后续分类算法进行分类的难度;还有的方法采用的是距离优先的算法,在面临均匀分布的数据集时具有较好的聚类性能,但是面对非均匀数据集时,其聚类性能有所损失。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于动态权重D-XGBoost模型的预测方法及系统,避免了SMOTE算法生成的少数类样本容易与周围的多数类样本产生重叠难以分类的问题。
本发明所采用的第一技术方案是:一种基于动态权重D-XGBoost模型的预测方法,包括以下步骤:
获取数据集并对数据集中的数据进行格式统一,得到统一的数据;
对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集;
基于动态权重策略的D-XGBoost模型对预处理后的数据集进行参数预测。
进一步,所述对统一的数据进行数据降维、数据清洗和过采样处理,得到预处理后的数据集这一步骤,其具体包括:
基于主成分分析法对统一的数据进行数据降维,得到降维后的数据;
基于最邻近规则算法对降维后的数据进行数据清洗,得到少数类样本集;
基于合成少数类过采样技术对少数类样本集进行过采样处理,得到预处理后的数据集。
进一步,所述基于主成分分析法对统一的数据进行数据降维,得到降维后的数据这一步骤,其具体包括:
从统一的数据中采集出维随机向量,并构造样本矩阵;
对样本矩阵进行均值归零化处理,得到标准化矩阵;
计算标准化矩阵的自相关矩阵;
计算自相关矩阵的单位特征向量并根据单位特征向量转换选取主成分,得到降维后的数据。
进一步,所述基于合成少数类过采样技术对少数类样本集进行过采样处理,得到预处理后的数据集这一步骤,其具体包括:
对少数类样本集中的少数类样本x,以欧氏距离为标准计算该样本到少数类样本集中所有样本的距离,得到对应的n个近邻;
根据样本不平衡比例设置采样比例并确定采样倍率;
对于少数类样本,基于采样倍率从对应的n个近邻中随机选择若干个样本,得到对应选择的近邻xn;
对于近邻xn,分别与原样本集合构建新样本,得到预处理后的数据集。
进一步,所述对于近邻xn,分别与原样本集合构建新样本这一步骤的具体计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110047429.6/2.html,转载请声明来源钻瓜专利网。