[发明专利]用于信用评分的欠采样分类集成方法、设备及存储介质在审
申请号: | 202011427138.1 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112541536A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 张在美;袁玉洁;刘彦;谢国琪 | 申请(专利权)人: | 长沙理工大学;湖南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/02 |
代理公司: | 长沙知行亦创知识产权代理事务所(普通合伙) 43240 | 代理人: | 严理佳 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 信用 评分 采样 分类 集成 方法 设备 存储 介质 | ||
本发明提供用于信用评分的欠采样分类集成方法、设备及存储介质。包括步骤:获取用户训练集,将训练集中的样本数据分为多数类数据集与少数类数据集;利用欠采样算法从多数类数据集中随机欠采样出k个多数类数据子集,每个多数类数据子集包含n个第一数据样本的多数类数据子集,每次欠采样剩下的m‑n个第一数据样本形成k个纯多数类数据子集;将k个多数类数据子集与少数类数据集中的第二数据样本混合形成k个平衡数据子集;利用k个平衡数据子集学习出k个CART树二分类基分类器;利用k个纯多数类数据子集学习出k个OneClassSVM一分类基分类器;通过bagging算法集成基分类器输出最终结果。本发明解决信用评分中数据不平衡问题,充分利用数据样本提高分类性能。
技术领域
本发明涉及金融风控技术领域,尤其涉及用于信用评分的欠采样分类集成方法、设备及存储介质。
背景技术
在信用贷款中,评估贷款申请人的信誉度是非常重要的,预测贷款人的信誉度,来决定是否为借款人提供资金已成为信用评分中一个关键问题。在信贷中,非违约类实例数量远远多于违约类实例数量,表现出类别不平衡问题。在信贷中呈现出借款人违约的数量与非违约的数量严重失衡的现象。从不平衡的数据集中有效地预测信用风险是很困难的,因为不平衡的数据会影响分类模型区分良好借款人和潜在违约者的能力。传统的分类算法会倾向于多数类及违约类而忽略少数类及非违约类,使分类器在整个数据中达到很高的准确性。然而,在信用评分中,违约客户的损失会远远大于非违约客户带来的收益。准确预测违约类,可以很大程度上减少损失,因而解决不平衡问题在信用分类中尤为重要。
已经有许多基于信用评分模型的决策系统,来帮助银行或贷款平台决定是否向贷款申请人提供信贷。为了提高社会贷款中信用风险预测的可靠性,已有许多统计模型和人工智能模型用于信用风险评估。为了解决不平衡问题,已经做了很多尝试,主要分为两类,一是数据层面,二是算法层面。在数据层面上解决不平衡是使类达到平衡,重采样是解决数据不平衡的最重要策略之一,算法层面是通过修改或者集成现有算法来提高分类性能。
虽然已有很多方法来解决数据不平衡问题,大部分方法是致力以牺牲多数类的预测性能来提高少数类的预测性能。也有许多研究对算法进行改进来提高整体分类效果,但是还没有将一分类与二分类结合使用在信用评分中。
发明内容
针对上述技术问题,本发明的主要目的在于提供用于信用评分的欠采样分类集成方法、设备及存储介质,其目的在于解决样本数据中多数类数据集和少数类数据集数据不平衡问题,并通过修改或集成现有算法来提高分类性能。
为实现上述目的,本发明提供了用于信用评分的欠采样分类集成方法,包括步骤:
S1,获取用户训练集,将所述用户训练集中的样本数据分为多数类数据集与少数类数据集;其中,所述多数类数据集包含m个第一数据样本,所述少数类数据集包含n个第二数据样本;在信贷中,用户训练集的样本数据,多数类为非违约样本,少数类为违约样本。
S2,利用欠采样算法从所述多数类数据集中随机欠采样出预设数量k个多数类数据子集,每个所述多数类数据子集包含n个所述第一数据样本的多数类数据子集,每次欠采样剩下的m-n个所述第一数据样本形成k个纯多数类数据子集;在多数类数据集中通过欠采样算法,在多数类数据集中随机欠采样出与少数类数据集样本个数相同的样本,使多数类数据样本和少数类数据样本达到平衡,可以进行多次欠采样操作,每次都能得到不同的数据样本,把每次欠采样剩下的多数类数据样本形成纯多数类数据子集,可以充分的利用多数类数据集。
S3,将k个所述多数类数据子集分别与所述少数类数据集混合形成k个平衡数据子集;多数类数据子集和少数类数据集的样本个数相同,可以达到使平衡数据子集学习出的模型准确度更高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学;湖南大学,未经长沙理工大学;湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011427138.1/2.html,转载请声明来源钻瓜专利网。