[发明专利]金融风控逻辑回归特征筛选方法及系统在审
申请号: | 202010662195.1 | 申请日: | 2020-07-10 |
公开(公告)号: | CN111861705A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 林建明 | 申请(专利权)人: | 深圳无域科技技术有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02 |
代理公司: | 上海大邦律师事务所 31252 | 代理人: | 孙成 |
地址: | 518000 广东省深圳市南山区粤海街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融 逻辑 回归 特征 筛选 方法 系统 | ||
本发明揭示了一种金融风控逻辑回归特征筛选方法及系统,所述特征筛选方法包括:获取P个初始变量;从获取的初始变量中生成N份初始变量组合,形成N个数据模型;从数据集中拆分出1~n份数据,作为评估数据集;通过N个数据模型分别对各评估数据集进行评估,得到各评估数据集在各数据模型的评估数据;对于各个评估数据集,从N个数据模型得到的评估数据中选择排名前m的数据模型;在各数据集的排名前m的数据模型中,判断是否存在在每份数据集都出现的数据模型,若存在一个,将该数据模型作为最优数据模型;若存在至少两个,根据评估指标选出初始变量组合中的最佳模型。本发明更好地保证模型在未来的数据上有相对更好的泛化能力。
技术领域
本发明属于数据处理技术领域,涉及一种数据筛选方法,尤其涉及一种金融风控逻辑回归特征筛选方法及系统。
背景技术
互联网金融风险控制的核心目标之一是把客户逾期风险控制在一个最优区间。而利用用户过往的行为数据,应用机器学习技术建立模型预测客户在不同场景下未来的风险是实施风险控制的主要手段之一。在互联网金融风险控制场景下,模型的首要目标是预测借款客户在未来一段时间内的逾期风险,所以模型在不同业务场景下是否具备不错的泛化能力是建模人员关注的主要问题。而模型的泛化能力跟建模人员选取的变量组合关系密切。因此,结合互联网金融领域常用的技术之一—logistic回归模型,本专利侧重研究如何选取具有良好泛化能力的变量组合。
Logistic模型是互联网金融风险控制的主要技术之一,该模型在实际运用中的难点之一是在众多变量中通过比较不同子集的优劣,筛选出一组合适变量,建立具有不错区分能力和泛化能力的稳健模型。目前Logistic回归变量筛选的研究主要集中在如何提高模型的区分能力,也即减少模型预测的偏差,追求估计的无偏性。比如,不少学者都关注漏掉一些对因变量影响很大的自变量或者纳入一些对因变量影响很大的自变量对模型预测精度的影响。
在方法实践上,逐步回归根据选择标准的不同仅仅考虑了变量系数估计的显著性(基于p值)或者模型的拟合度(基于AIC准则和R2),对模型的泛化能力考虑不足。改进的AICC法通过对纳入变量个数的数量施加惩罚在一定程度上避免模型过拟合,BIC准则引入Bayes方法利用样本的后验分布施加惩罚。但AIC,BIC等是一个离散、无序的过程,变量或者被保留或者丢弃常常表现为高方差,并不能有效降低模型的预测误差。正则化方法本质上是在残差平方和上添加惩罚函数,减少模型过拟合。但当模型是多变量的大型模型时,正则化对系数压缩已经不能够保证模型的精确性。且正则化对每一个回归系数实施相同的惩罚,对系数压缩的度不能很好控制。
而且,上述针对Logistic回归模型变量选择的方法是基于训练集数据完成的,选中的变量更多反映了训练数据中的客观规律,但是仅仅较好反映一种“数据分布”的客观规律在互联网金融风险控制领域并不是足够的。原因在于:①受政策、市场和客户渠道等因素的影响,互联网金融客群分布存在波动大、变化快的风险,而模型工程师不仅关注模型在短期内的效果,也看中其长期表现;②在行业实践中,公司会根据自身实际业务,常常把在某一个业务场景下开发的模型使用在其他业务场景中,并期望有不错的泛化效果。因此,在互联网金融风险控制场景下,Logistic模型在较长时间段,不同业务场景下的泛化能力变得尤为重要。
有鉴于此,如今迫切需要设计一种新的特征筛选方法,以便克服现有特征筛选方法存在的上述至少部分缺陷。
发明内容
本发明提供一种金融风控逻辑回归特征筛选方法及系统,可更好地保证模型在未来的数据上有相对更好的泛化能力。
为解决上述变量选择的技术问题,根据本发明的一个方面,采用如下技术方案:
一种金融风控逻辑回归特征筛选方法,所述特征筛选方法包括:
步骤S1、获取可用于建模的所有特征,作为初始变量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳无域科技技术有限公司,未经深圳无域科技技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010662195.1/2.html,转载请声明来源钻瓜专利网。