[发明专利]信用评分模型的构建方法、装置、设备及存储介质在审
申请号: | 201911331416.0 | 申请日: | 2019-12-21 |
公开(公告)号: | CN111080442A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 牛坤;刘彦;张在美;谢国琪 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06N20/00 |
代理公司: | 长沙知行亦创知识产权代理事务所(普通合伙) 43240 | 代理人: | 严理佳 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信用 评分 模型 构建 方法 装置 设备 存储 介质 | ||
1.一种信用评分模型的构建方法,其特征在于,包括:
步骤1,将原始不平衡信用数据集划分为训练集和验证集;所述原始不平衡信用数据集内的多个数据样本包括多个用户的信用信息,所述多个数据样本与所述多个用户一一对应;
步骤2,将所述训练集内的数据样本分为多数类训练样本和少数类训练样本;
步骤3,利用无监督聚类算法对所述多数类训练样本进行聚类,生成多个样本簇;
步骤4,根据所述多个样本簇和所述少数类训练样本,得到预设数量的平衡训练子集;
步骤5,根据得到的平衡训练子集、所述验证集以及预设决策树基分类器,构建信用评分模型。
2.根据权利要求1所述的构建方法,其特征在于,所述步骤1包括:
按照预设的数据划分比例,将原始不平衡信用数据集划分为训练集和验证集。
3.根据权利要求1所述的构建方法,其特征在于,所述步骤4包括:
步骤4.1,从所述多个样本簇中的每个样本簇中有放回的抽取Si个样本,并将从所述多个样本簇中提取到的所有样本合并成一多数类训练子集;
步骤4.2,从所述少数类训练样本中有放回的抽取Nmin个样本;所述多数类训练子集中的样本数等于Nmin;
步骤4.3,将所述多数类训练子集中的样本和从所述少数类训练样本中抽取到的样本合并成一平衡训练子集;
步骤4.4,重复步骤4.1至步骤4.3,直至得到预设数量的平衡训练子集。
4.根据权利要求1所述的构建方法,其特征在于,所述预设决策树基分类器记录于预先存储的基分类器候选列表中,且所述预设决策树基分类器的数量与所述平衡训练子集的数量相同。
5.根据权利要求4所述的构建方法,其特征在于,所述步骤5包括:
步骤5.1,利用得到的预设数量的平衡训练子集对预设数量的预设决策树基分类器进行训练,得到预设数量个训练后的决策树基分类器;
步骤5.2,根据所述验证集内的数据样本,从预设数量个训练后的决策树基分类器中筛选出目标决策树基分类器;
步骤5.3,将所述目标决策树基分类器作为信用评分模型。
6.根据权利要求5所述的构建方法,其特征在于,所述步骤5.1包括:
步骤5.11,建立所述预设数量的平衡训练子集和所述预设数量的预设决策树基分类器之间的一一对应关系;
步骤5.12,分别针对每个平衡训练子集,利用该平衡训练子集对该平衡训练子集对应的预设决策树基分类器进行训练,得到预设数量个训练后的决策树基分类器。
7.根据权利要求5所述的构建方法,其特征在于,所述步骤5.2包括:
步骤5.21,分别针对每个训练后的决策树基分类器,将所述验证集内的数据样本输入该决策树基分类器,得到分类结果,并根据所述分类结果,获取用于表征该决策树基分类器的综合性能的评价指标的数值;
步骤5.22,计算所有训练后的决策树基分类器的评价指标的数值的平均值;
步骤5.23,将预设数量个训练后的决策树基分类器中评价指标的数值大于或等于所述平均值的决策树基分类器作为目标决策树基分类器。
8.一种信用评分模型的构建装置,其特征在于,包括:
第一划分模块,用于将原始不平衡信用数据集划分为训练集和验证集;所述原始不平衡信用数据集内的多个数据样本包括多个用户的信用信息,所述多个数据样本与所述多个用户一一对应;
第二划分模块,用于将所述训练集内的数据样本分为多数类训练样本和少数类训练样本;
聚类模块,用于利用无监督聚类算法对所述多数类训练样本进行聚类,生成多个样本簇;
确定模块,用于根据所述多个样本簇和所述少数类训练样本,得到预设数量的平衡训练子集;
构建模块,用于根据得到的平衡训练子集、所述验证集以及预设决策树基分类器,构建信用评分模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911331416.0/1.html,转载请声明来源钻瓜专利网。