[发明专利]一种基于Stacking集成学习的网贷回头客预测的方法在审
申请号: | 202110026408.6 | 申请日: | 2021-01-08 |
公开(公告)号: | CN112700325A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 张涛;秦立力 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06Q30/02;G06N20/20 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 stacking 集成 学习 回头客 预测 方法 | ||
1.一种基于Stacking集成学习的网贷回头客预测的方法,其特征在于:包括,步骤1:数据采集;收集已贷款用户的相关数据,包含四个维度的数据;用户基本信息数据、用户的消费信息数据、用户的行为标签数据、用户社交关系数据;以及最终该用户是否进行了二次贷款作为目标标签;
步骤2:数据处理;用户的相关数据可能由于填写有误或者数据丢失,导致存在缺失值以及错误值,需要对于获取到的四个维度的相关数据进行缺失值处理、异常值剔除;缺失值采用补0,中位数方式进行;对于类别型数据,进行One-Hot编码;最后,将处理后的标准化数据集划分为训练集和测试集;
步骤3:特征提取;使用皮尔森相关系数剔除无关特征,结合XGBoost,随机森林算法进行特征提取,减少无关特征的数量,提高模型的训练效率,降低噪音;最终获得模型的输入数据;
步骤4:模型训练;Stacking方法包含两层模型,第一层的初级学习器分别使用CatBoost、XGBoost、RF进行独立训练,将训练得到的预测结果也作为特征加入训练集,第二层使用XGBoost作为次级学习器来进行模型融合,对第一层的模型输出作为数据进行训练,得到最终的模型,对结果进行预测。
2.根据权利要求1所述的一种基于Stacking集成学习的网贷回头客预测的方法,其特征在于:对于已贷款用户,收集用户在本贷款平台的相关数据,大致分为4个纬度;其中,用户的基本信息数据指用户提交的基本信息;用户消费信息包含用户上期账单金额、上期还款金额、信用卡额度、本期账单余额;用户行为标签数据包含用户的行为标签,根据用户在贷款平台的行为设计为几种类别,用于将用户的行为进行评价分类;用户社交关系包含用户与同平台用户之间的联系。
3.根据权利要求1所述的一种基于Stacking集成学习的网贷回头客预测的方法,其特征在于:对于数值范围跨度大的连续型变量,需要将变量的值同等变换到相同尺度下,做归一化处理;
归一化处理采用0均值标准化;其公式为:
其中,x表示数据原始值,x′表示归一化处理后的值,σ表示该列数据的标准差,mean代表该列数据的均值;
极个别数值跨度非常大的变量做归一化并不合适,取值在0~1000000范围的变量,对于这些数据采取Log变换的方式来处理,具体如下:
value′=log2(value+1)
其中value指该数据的原始值,value′指变换后的值;
非数值型变量采用One-Hot编码方式;对于肉眼可观测到的异常值,采取删除记录的方式进行处理。
4.根据权利要求1所述的一种基于Stacking集成学习的网贷回头客预测的方法,其特征在于:XGBoost进行特征重要性评估有五种方式:
‘weight’:权重形式,表示在所有树中,一个特征在分裂节点时被使用了多少次;
‘gain’:增益形式,表示在所有树中,一个特征作为分裂节点存在时,带来的增益的平均值;
‘cover’:覆盖度,表示在所有树中,一个特征作为分裂节点存在时,覆盖的样本数量的平均值;
‘total_gain’:相对于’gain’,这里表示的是带来的总增益大小;
‘total_cover’:相对于’cover’,这里表示的是覆盖的总样本数量;
其中weight把某个特征在所有树中被使用的次数统计了出来,认为这样的特征相比于其他特征更加重要,故选择weight方式;
经过数据清洗,降维后,得到模型的输入数据,采用随机抽样,按照比例将数据集划分为训练集D和测试集T。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110026408.6/1.html,转载请声明来源钻瓜专利网。