[发明专利]一种基于机器学习的信用评分卡开发方法在审
申请号: | 201811618779.8 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109636591A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 陈国定;徐英浩 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于基于机器学习的评分卡开发方法,包括以下步骤:(1)根据vintage分析来定义目标用户的标签;(2)整合多种数据源获得最后数据;(3)对数据进行探索性分析和数据清洗;(4)对清洗后的数据使用优化后的卡方分箱法分箱;(5)对分箱后的变量进行变量筛选;(6)构建logistics回归模型;(7)对模型进行评价;(8)将模型输出目标用户违约概率转换为分数。本发明利用机器学习、vintage分析、logistics回归模型,针对大数据时代下人工效率低下,审核困难等难点,将问题从依靠人工解决转换到机器解决。 | ||
搜索关键词: | 基于机器 评分卡 分箱 变量筛选 定义目标 机器学习 人工效率 输出目标 数据清洗 数据使用 违约概率 分析 转换 大数据 数据源 构建 整合 清洗 标签 开发 学习 审核 信用 优化 | ||
【主权项】:
1.一种基于机器学习的信用评分卡开发方法,其特征在于,所述方法包括以下步骤:1)目标变量的定义根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内用户逾期天数小于3天的定义为”好用户”,将逾期天数大于30天的定义为”坏用户”,将逾期天数大于3天小于30天的定义为”灰度用户”;(2)数据的获取数据的来源多种多样,包括金融机构自身的字段:用户的年龄、户籍、性别、收入、负债比和在本机构的借款行为;还有第三方的数据:历史消费数据、其它机构的借贷行为和网上购物行为;3)EDA探索性数据分析了解数据的大体情况,每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况等,以便制定数据预处理方案;4)数据清洗对原始数据中脏数据、缺失值、异常值进行处理,对于缺失值的方法是删除缺失率超过给定阈值的变量,对于缺失率少于阈值的可通过将缺失样本作为预测值,使用随机深林来预测该值进行填充,对于异常值的处理是将异常值作为一种状态;5)变量分箱使用卡方分箱法,并同时兼顾多种业务约束条件,所述约束条件包括每个组最小样本占比、最大分箱数或woe单调;#GT:是所有好客户人数;6)变量筛选基于IV值的变量筛选,IV值计算公式如下:变量对应的IV值为所有分箱对应的IV值之和:计算出各个变量的IV值后,基于IV值来筛选一部分特征,步骤如下:步骤6.1:将IV值升序排序,选择IV值大于0.02的变量;步骤6.2:使用皮尔逊相关系数计算两两变量的相关性,当两变量间相关系数大于阈值时,删除IV值较低的变量;步骤6.3:使用VIF来衡量一个变量和其他变量的多重共线性,当某个变量的VIF大于阈值时,需要逐一剔除解释变量,删除变量时选择IV值较低的一个;以下是对VIF和皮尔逊相关系数说明:i)皮尔曼相关系数越接近0说明两变量线性相关性越低,越接近1或者‑1两变量相关性越强,公式如下:公式(5)中,cov(X,Y)是两个变量的协方差,是变量X的标准差是变量Y的标准差;ii)通常VIF大于10说明变量之前存在较明显的多重共线,公式如下:公式(6)中Ri为Xi与其它变量的复相关系数;公式(7)中为其他变量的线性表示;7)构建logistics回归模型包括构建初步的逻辑回归模型,根据p‑value进行变量筛选,根据各个变量的系数符号进行筛选,得到最终的逻辑回归模型;8)模型评价因为这是一个数据不平衡问题,样本集中正样本数量远多于负样本数量,所以使用AUC来评价模型的好坏,同时也使用KS来判断模型对于好坏用户的区分能力;9)概率转换为分数score=offset+factor*ln(odds) (8)Logistics回归模型最后输出的是一个用户违约的概率,为了提高信用评分模型的实用性,可以将概率值转换为信用评分,使用转换法,即对好坏比的对数值进行线性变换,然后加上一个常数,使得分数在预先设定的范围之内,且得分越高,信用越好。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811618779.8/,转载请声明来源钻瓜专利网。