[发明专利]一种混合式机器学习信用评分模型构建方法在审
申请号: | 201710101817.1 | 申请日: | 2017-02-24 |
公开(公告)号: | CN106897918A | 公开(公告)日: | 2017-06-27 |
发明(设计)人: | 兰翔;钟磊 | 申请(专利权)人: | 上海易贷网金融信息服务有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06Q40/02;G06N99/00 |
代理公司: | 成都行之专利代理事务所(普通合伙)51220 | 代理人: | 郭受刚 |
地址: | 201800 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 混合式 机器 学习 信用 评分 模型 构建 方法 | ||
1.一种混合式机器学习信用评分模型构建方法,其特征在于,所述方法包括:
步骤1:基于贷款客户历史数据集确定客户风险分类标准;
步骤2:基于贷款客户历史数据集,通过特征抽取获得贷款客户数据特征集;
步骤3:从备选模型库中选择至少两种模型算法,基于选择的算法建立相应的模型,对建立的模型采用K折交叉检验方法进行模型性能检验,基于模型检验标准对将通过模型性能检验的模型进行标准检验,获得评价指标统计量值,根据各模型标准检验返回的评价指标统计量值大小选取最终建模使用的模型类型;
步骤4:基于选择的模型类型对应的算法,构建信用评分模型。
2.根据权利要求1所述的混合式机器学习信用评分模型构建方法,其特征在于,所述方法还包括步骤5,基于建立的信用评分模型,对贷款用户信用进行评分。
3.根据权利要求1所述的混合式机器学习信用评分模型构建方法,其特征在于,客户风险分为两类:1和0,1代表高风险客户,0代表低风险客户;首先,对借款人申请信息的分析采取K均值聚类算法,根据数据结构本身的特点,依次将借款人分为3-5簇,对每次分类结果基于业务专家分析进行判断,判断借款人样本类是否属于高风险客户,若属于则直接给该类客户标记为1;然后,以风险加权毛利率为统一标准,对借款人贷后表现做统一评价。
4.根据权利要求3所述的混合式机器学习信用评分模型构建方法,其特征在于,从给定样本空间中随机选择k个对象作为初始聚类中心;对于剩余的对象,则根据剩余对象与初始聚类中心的相似度,分别将剩余对象分配给与其最相似的初始聚类中心所代表的聚类;然后再计算每个所获新聚类的聚类中心;不断重复上述过程直到标准测度函数开始收敛为止,算法输出k个簇。
5.根据权利要求3所述的混合式机器学习信用评分模型构建方法,其特征在于,风险加权毛利率RWGR=(贷款利率-放款资金成本-坏账率-销售人员提成-逾期还款资金占用成本)/贷款利率;根据贷款机构自身的风险偏好和风险承受度,定下阈值θ∈[0%,100%];
对每任一历史借款人i进行定性评价:
第一步,根据之前聚类计算后得到的划分簇,判断簇中的借款人是否属于高风险客户,若属于则标记为1;
第二步,通过阈值θ进行标记;
若RWGRi大于或等于θ,则将该借款人划分为高风险客户,标签标记为1;
若RWGRi小于θ,则将该借款人划分为低风险客户,标签标记为0。
6.根据权利要求1所述的混合式机器学习信用评分模型构建方法,其特征在于,贷款客户数据特征集同时满足下列条件:
贷款客户数据特征集中每一个贷款客户和数据集的行为一一对应映射关系;贷款客户数据特征集无信息缺失;贷款客户数据特征集中所有数据均为数字。
7.根据权利要求1所述的混合式机器学习信用评分模型构建方法,其特征在于,通过特征抽取获得贷款客户数据特征集,具体包括:
对于以非数字描述的变量进行数字化处理;
对于信息缺失的,判断对于信息缺失的数量,若超过预设标准,则进行缺失值填充,若未超过预设标准,则丢弃该信息;
对于贷款客户有多行信息的,采取数据聚合处理;
若从贷款客户历史数据集中抽取的贷款客户特征少于10个,则加入公开数据集特征;
最终,获得贷款客户数据特征集。
8.根据权利要求1所述的混合式机器学习信用评分模型构建方法,其特征在于,备选模型库中的模型算法包括:逻辑回归算法、决策树算法、支持向量机算法、最近邻算法、朴素贝叶斯算法、随机森林算法、后向传播神经网络算法。
9.根据权利要求1所述的混合式机器学习信用评分模型构建方法,其特征在于,K折交叉检验具体为:
将原始数据分为K等份,K是大于1的正整数,随机选取K-1份做为训练集,余下的1份做为验证集,用训练集对分类器进行训练生成模型,再利用验证集来测试训练得到的模型,并返回性能指标。
10.根据权利要求1所述的混合式机器学习信用评分模型构建方法,其特征在于,对将通过模型性能检验的模型进行标准检验具体为:
采用Kolmogorov-Smirnov统计量值来衡量预测结果,KS为评价指标统计量值,KS计算方法为:
假设f(s|P)为正样本预测值的累计分布函数,f(s|N)为负样本在预测值上的累计分布函数,则有:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海易贷网金融信息服务有限公司,未经上海易贷网金融信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710101817.1/1.html,转载请声明来源钻瓜专利网。