[发明专利]一种基于Stacking集成学习的网贷回头客预测的方法在审

专利信息
申请号: 202110026408.6 申请日: 2021-01-08
公开(公告)号: CN112700325A 公开(公告)日: 2021-04-23
发明(设计)人: 张涛;秦立力 申请(专利权)人: 北京工业大学
主分类号: G06Q40/02 分类号: G06Q40/02;G06Q30/02;G06N20/20
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 stacking 集成 学习 回头客 预测 方法
【权利要求书】:

1.一种基于Stacking集成学习的网贷回头客预测的方法,其特征在于:包括,步骤1:数据采集;收集已贷款用户的相关数据,包含四个维度的数据;用户基本信息数据、用户的消费信息数据、用户的行为标签数据、用户社交关系数据;以及最终该用户是否进行了二次贷款作为目标标签;

步骤2:数据处理;用户的相关数据可能由于填写有误或者数据丢失,导致存在缺失值以及错误值,需要对于获取到的四个维度的相关数据进行缺失值处理、异常值剔除;缺失值采用补0,中位数方式进行;对于类别型数据,进行One-Hot编码;最后,将处理后的标准化数据集划分为训练集和测试集;

步骤3:特征提取;使用皮尔森相关系数剔除无关特征,结合XGBoost,随机森林算法进行特征提取,减少无关特征的数量,提高模型的训练效率,降低噪音;最终获得模型的输入数据;

步骤4:模型训练;Stacking方法包含两层模型,第一层的初级学习器分别使用CatBoost、XGBoost、RF进行独立训练,将训练得到的预测结果也作为特征加入训练集,第二层使用XGBoost作为次级学习器来进行模型融合,对第一层的模型输出作为数据进行训练,得到最终的模型,对结果进行预测。

2.根据权利要求1所述的一种基于Stacking集成学习的网贷回头客预测的方法,其特征在于:对于已贷款用户,收集用户在本贷款平台的相关数据,大致分为4个纬度;其中,用户的基本信息数据指用户提交的基本信息;用户消费信息包含用户上期账单金额、上期还款金额、信用卡额度、本期账单余额;用户行为标签数据包含用户的行为标签,根据用户在贷款平台的行为设计为几种类别,用于将用户的行为进行评价分类;用户社交关系包含用户与同平台用户之间的联系。

3.根据权利要求1所述的一种基于Stacking集成学习的网贷回头客预测的方法,其特征在于:对于数值范围跨度大的连续型变量,需要将变量的值同等变换到相同尺度下,做归一化处理;

归一化处理采用0均值标准化;其公式为:

其中,x表示数据原始值,x′表示归一化处理后的值,σ表示该列数据的标准差,mean代表该列数据的均值;

极个别数值跨度非常大的变量做归一化并不合适,取值在0~1000000范围的变量,对于这些数据采取Log变换的方式来处理,具体如下:

value′=log2(value+1)

其中value指该数据的原始值,value′指变换后的值;

非数值型变量采用One-Hot编码方式;对于肉眼可观测到的异常值,采取删除记录的方式进行处理。

4.根据权利要求1所述的一种基于Stacking集成学习的网贷回头客预测的方法,其特征在于:XGBoost进行特征重要性评估有五种方式:

‘weight’:权重形式,表示在所有树中,一个特征在分裂节点时被使用了多少次;

‘gain’:增益形式,表示在所有树中,一个特征作为分裂节点存在时,带来的增益的平均值;

‘cover’:覆盖度,表示在所有树中,一个特征作为分裂节点存在时,覆盖的样本数量的平均值;

‘total_gain’:相对于’gain’,这里表示的是带来的总增益大小;

‘total_cover’:相对于’cover’,这里表示的是覆盖的总样本数量;

其中weight把某个特征在所有树中被使用的次数统计了出来,认为这样的特征相比于其他特征更加重要,故选择weight方式;

经过数据清洗,降维后,得到模型的输入数据,采用随机抽样,按照比例将数据集划分为训练集D和测试集T。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110026408.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top