[发明专利]一种信贷变量数据的进行高纬变量筛选的方法在审
申请号: | 202111494508.8 | 申请日: | 2021-12-09 |
公开(公告)号: | CN114119211A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 钟磊;田羽;刘银龙;段笑;游江珊 | 申请(专利权)人: | 武汉众邦银行股份有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06F17/18 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 李龙 |
地址: | 432200 湖北省武汉市黄陂区盘龙城经济开发区汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信贷 变量 数据 进行 筛选 方法 | ||
本发明涉及信用评分建模领域,提供了一种信贷变量数据的进行高纬变量筛选的方法。目的在于解决如何充分筛选高维变量,尝试构建一种新的变量筛选方法来辅助信用评分建模,确保得到的建模模型的最佳准确度。主要方案包括获取申请数据、放款数据、逾期数据、征信数据;截取一段时间的数据,根据cumauc归纳方法对提取的数据进行初步筛选,选取auc值大的数据;对初步筛选的变量进行卡方分箱,卡方分箱使得每个数据有单独的权重,为后续的评分模型引入非线性,降低了模型过拟合的风险,选取权重较高的数据;根据筛选得到的数据进行stepwise逐步回归分析,最终得到所有的符合筛选条件的数据。
技术领域
本发明涉及信用评分建模领域,具体是一种信贷变量数据的进行高纬变量筛选的方法。
背景技术
风控技术是现代金融的基石之一,而风控模型在风控技术中扮演着关键的角色。在互联网金融时代,由于面向个人的小微企业的普惠特性,自动化风控是降低风险成本的必由之路,风控建模在自动化分控中应用广泛。
风控建模模型模型的效果依赖于基础数据,这决定了建模样本集和入模变量对风控模型的有效性产生关键性影响。金融企业在风控建模前会获取用户大量基础变量和衍生变量,经筛选作为风控模型的入模变量。通常筛选后的原始入模变量或多或少存在一定的相关性和关联性,这将影响训练风控模型的精度。如何进行高维变量的筛选,显得尤为重要。
在信用评分变量筛选建模问题上,常用的方法有IV(Information-Value)值筛选、KS(Kolmogorov-Smirnov)值筛选,PCA降维等方法。发明专利《适用于信用评分卡系统的自动优化方法和系统》,专利申请号201910491304.5中,姜海波等人公开的一种将变量划分成多种分段模式,计算每种分段下的IV值,以判断最优分段模式和所其对应的最大IV值,根据每个变量的最大IV值筛选出变量。该种方法考虑了不同分段情况下的IV值的变化,但是缺点是只考虑了IV值的情况,对变量的筛选分辨能力不强。发明专利《一种风控模型入模变量降维方法》,专利申请号202010295782.1中,刘星辰等人公开的一种将原始样本进行重采样获取建模样本,以保证建模样本集的类别平衡;针对建模样本集,选取风控模型的原始变量,并进行缺失值填充和异常值替换等预处理;对建模样本集原始变量中的连续变量进行线性判别分析处理,实现连续变量的的降维;降维后的连续变量与非连续变量组合,作为最终的入模变量。该方法降低了变量的相关性和关联性,但是线性判别方式在数据维度较高时不适用,同时容易导致过拟合。发明专利《信用评估变量筛选方法、装置、计算机设备及存储介质》,专利申请号202011594339.0中,孙向欣公开的一种以变量为排序因子,基于用户数据计算各变量的KS指标值;根据KS指标值对各变量进行筛选,得到第一候选变量;基于各第一候选变量之间的相关系数对第一候选变量进行筛选,得到第二候选候选变量;将第二候选变量输入第一信用评估模型,以计算第二候选变量的特征贡献度;根据第二候选变量的特征贡献度和KS指标值对第二候选变量进行筛选。该方法同时考虑了变量的KS值和特征贡献度,保证了一定的准确性,但是KS表示的是变量对好坏的区分能力,如果存在变量区分能力一致的情况,变量将无法筛选,有一定的局限性。
鉴于上述几种常见金融评分建模变量筛选方法中存在的问题,本发明围绕如何充分筛选高维变量,尝试构建一种新的变量筛选方法来辅助信用评分建模,确保得到建模模型的最佳准确度。
发明内容
本发明的目的在于解决传统单一方法存在的共线性、单一方法筛选变量存在的局限性,形成更高效、更快速筛选变量的方法。
本发明为了解决上述技术问题,采用以下技术方案:
一种进行高维变量筛选的信用评分方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉众邦银行股份有限公司,未经武汉众邦银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111494508.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置