[发明专利]一种混合式机器学习信用评分模型构建方法在审

申请号：	201710101817.1	申请日：	2017-02-24
公开（公告）号：	CN106897918A	公开（公告）日：	2017-06-27
发明（设计）人：	兰翔;钟磊	申请（专利权）人：	上海易贷网金融信息服务有限公司
主分类号：	G06Q30/06	分类号：	G06Q30/06;G06Q40/02;G06N99/00
代理公司：	成都行之专利代理事务所(普通合伙)51220	代理人：	郭受刚
地址：	201800 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种混合式机器学习信用评分模型构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种混合式机器学习信用评分模型构建方法，其特征在于，所述方法包括：

步骤1：基于贷款客户历史数据集确定客户风险分类标准；

步骤2：基于贷款客户历史数据集，通过特征抽取获得贷款客户数据特征集；

步骤3：从备选模型库中选择至少两种模型算法，基于选择的算法建立相应的模型，对建立的模型采用K折交叉检验方法进行模型性能检验，基于模型检验标准对将通过模型性能检验的模型进行标准检验，获得评价指标统计量值，根据各模型标准检验返回的评价指标统计量值大小选取最终建模使用的模型类型；

步骤4：基于选择的模型类型对应的算法，构建信用评分模型。

2.根据权利要求1所述的混合式机器学习信用评分模型构建方法，其特征在于，所述方法还包括步骤5，基于建立的信用评分模型，对贷款用户信用进行评分。

3.根据权利要求1所述的混合式机器学习信用评分模型构建方法，其特征在于，客户风险分为两类：1和0,1代表高风险客户，0代表低风险客户；首先，对借款人申请信息的分析采取K均值聚类算法，根据数据结构本身的特点，依次将借款人分为3-5簇，对每次分类结果基于业务专家分析进行判断，判断借款人样本类是否属于高风险客户，若属于则直接给该类客户标记为1；然后，以风险加权毛利率为统一标准，对借款人贷后表现做统一评价。

4.根据权利要求3所述的混合式机器学习信用评分模型构建方法，其特征在于，从给定样本空间中随机选择k个对象作为初始聚类中心；对于剩余的对象，则根据剩余对象与初始聚类中心的相似度，分别将剩余对象分配给与其最相似的初始聚类中心所代表的聚类；然后再计算每个所获新聚类的聚类中心；不断重复上述过程直到标准测度函数开始收敛为止，算法输出k个簇。

5.根据权利要求3所述的混合式机器学习信用评分模型构建方法，其特征在于，风险加权毛利率RWGR＝(贷款利率-放款资金成本-坏账率-销售人员提成-逾期还款资金占用成本)/贷款利率；根据贷款机构自身的风险偏好和风险承受度，定下阈值θ∈[0％,100％]；

对每任一历史借款人i进行定性评价：

第一步，根据之前聚类计算后得到的划分簇，判断簇中的借款人是否属于高风险客户，若属于则标记为1；

第二步，通过阈值θ进行标记；

若RWGRi大于或等于θ,则将该借款人划分为高风险客户，标签标记为1；

若RWGRi小于θ,则将该借款人划分为低风险客户，标签标记为0。

6.根据权利要求1所述的混合式机器学习信用评分模型构建方法，其特征在于，贷款客户数据特征集同时满足下列条件：

贷款客户数据特征集中每一个贷款客户和数据集的行为一一对应映射关系；贷款客户数据特征集无信息缺失；贷款客户数据特征集中所有数据均为数字。

7.根据权利要求1所述的混合式机器学习信用评分模型构建方法，其特征在于，通过特征抽取获得贷款客户数据特征集，具体包括：

对于以非数字描述的变量进行数字化处理；

对于信息缺失的，判断对于信息缺失的数量，若超过预设标准，则进行缺失值填充，若未超过预设标准，则丢弃该信息；

对于贷款客户有多行信息的，采取数据聚合处理；