[发明专利]一种基于Stacking集成学习的网贷回头客预测的方法在审
申请号: | 202110026408.6 | 申请日: | 2021-01-08 |
公开(公告)号: | CN112700325A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 张涛;秦立力 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06Q30/02;G06N20/20 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 stacking 集成 学习 回头客 预测 方法 | ||
本发明公开了一种基于Stacking集成学习的网贷回头客预测的方法,包括:数据采集、数据处理、特征提取、模型训练。本发明在对用户二次贷款意愿预测的时候,考虑从四个维度来收集用户的相关数据,尤其加入了过往模型预测所忽视的用户的行为标签数据以及用户的社交关系数据加入数据采集中。因为研究表明用户的消费信息和人际关系会对用户的行为产生影响。为了避免单一学习器精度低,容易过拟合的问题,采用Stacking集成学习提升预测的准确度。考虑到了性能和精度的平衡,采用10折交叉验证来训练模型。并且选择了比较新又高性能的CatBoost、分类精度良好的经典XGBoost和随机森林作为初级学习器,大大降低了训练过程的耗时,提高了预测的精度。
技术领域
本发明涉及计算机软件技术领域,涉及一种基于Stacking集成学习的网贷回头客预测方法。
背景技术
目前,机器学习在金融领域已经得到了广泛的应用,主要应用于金融风险管理以及反欺诈,例如贷款用户违约预测,信用评分等等。除此之外,还可应用于金融数据分析以挖掘用户价值。网贷回头客指的是在同一平台多次贷款的用户。数据表明,网贷用户在初次借款成功后,有很大概率会再次进行贷款申请,如何识别这些回头客有利于平台为用户提供更加优质的服务,帮助平台进行精准营销策略。贷款回头客预测即对网贷用户是否会进行二次贷款的预测。
用户是否会进行二次贷款本质上是一个二分类问题,金融领域常用的二分类模型有逻辑回归(Logistic Regression)以及梯度下降树(GDBT)等等。在实际应用中,传统的单个机器学习算法的分类能力可能会存在诸多局限性:例如在小规模数据样本集上训练的分类模型容易出现过拟合;用单一学习算法训练的分类模型,可能会得到局部最优解,某些数据可能不能被单一分类器正确分类。
在已有的信贷相关预测研究资料中,采用Stacking方式进行融合的相关研究较少,更多的是基于结果的投票制模型融合。基于投票式的模型融合简单,但是可靠性有限。Stacking集成学习就是一种利用结合策略去组合单一模型的方法,由于Stacking方法常用于异质集成,且可以构造多层个体分体器的集成,因此被广泛应用于各种领域。Stacking集成学习框架首先将原始数据集划分成若干子数据集,输入到第1层预测模型的各个初级学习器中,每个初级学习器输出各自的预测结果。然后,第1层的输出再作为第2层的输入,对第2层预测模型的次级学习器进行训练,再由位于第2层的模型输出最终预测结果。Stacking学习框架通过对多个模型的输出结果进行泛化,以提升对于未知样本的预测能力,从而获得整体预测精度的提升。
发明内容
本发明的目的在于提出一种基于Stacking集成学习的网贷回头客预测的方法。针对单个预测模型精度低,容易过拟合等缺点,使用Stacking集成学习,融合 XGBoost、随机森林等算法模型,构建预测模型,从而帮助贷款平台发现潜在的高质量用户。区别于简单的基于结果投票的模型融合,使用Stacking方法从模型训练入手,以提升学习效率以及模型最终预测的准确性。
本发明技术方案为一种基于Stacking集成学习的网贷回头客预测的方法,包括:
步骤1:数据采集。收集已贷款用户的相关数据,主要包含四个维度的数据。用户基本信息数据、用户的消费信息数据、用户的行为标签数据、用户社交关系数据。以及最终该用户是否进行了二次贷款作为目标标签。
步骤2:数据处理。用户的相关数据可能由于填写有误或者数据丢失,导致存在缺失值以及一些错误值,需要对于获取到的四个维度的相关数据进行缺失值处理、异常值剔除。缺失值主要采用补0,中位数等等方式进行。对于类别型数据,进行One-Hot编码。最后,将处理后的标准化数据集划分为训练集和测试集。
步骤3:特征提取。使用皮尔森相关系数(衡量变量间的线性相关性)剔除无关特征,结合XGBoost,随机森林算法进行特征提取,减少无关特征的数量,提高模型的训练效率,降低噪音。最终获得模型的输入数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110026408.6/2.html,转载请声明来源钻瓜专利网。