[发明专利]信用风险评估方法、计算机系统及存储介质有效
申请号: | 202110820804.6 | 申请日: | 2021-07-20 |
公开(公告)号: | CN113362167B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 袁玉洁;刘彦;张在美 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06Q40/03 | 分类号: | G06Q40/03;G06F18/2413 |
代理公司: | 长沙知行亦创知识产权代理事务所(普通合伙) 43240 | 代理人: | 严理佳 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信用风险 评估 方法 计算机系统 存储 介质 | ||
本发明公开了一种基于类边界的重采样集成学习模型的信用风险评估方法,包括:对训练集中的数据样本采用KNN分类算法对所述样本数据的进行分类,将所述训练集的中数据样本划分为类边界样本集与非边界样本集;分别把类边界样本集与非边界样本集的多数类与少数类分开,设置k个不同的百分比,每次分别从边界样本集和非边界样本集中分别随机抽取多数类与少数类,进行合并成k个不平衡集,根据不平衡集的不平衡比,用CTGAN来生成少数类使训练集平衡;用Bagging集成学习k个平衡样本集,用投票法表决最终结果。本发明解决了现有信用风险评估中因为数据类别不平衡导致的少数类用户的预测的准确率低问题。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于类边界的重采样集成学习模型的信用风险评估方法、计算机系统及存储介质。
背景技术
近年来,随着互联网金融的不断发展,贷款市场已经逐渐融入到人类的日常生活中。但这种便利性也为用户尤其是投资者带来了巨大的潜在风险。
信用评分模型的出现在一定程度上缓解了该问题,但是在信用评分中,非违约借贷人的数量远远大于违约借贷人的数量,呈现出严重的不平衡现象。从不平衡的数据集中有效地预测信用风险是很困难的,因为不平衡的数据会影响分类模型区分良好借款人和潜在违约者的能力。大部分的分类算法会倾向于多数类(非违约类)而忽略少数类,使分类器在整个数据中达到很高的准确性。但是,在信贷中,违约客户带来的损失远远大于非违约客户带来的利益,所以提升少数类的预测性能至关重要。
现在已有许多方法用来解决数据失衡问题,大部分方法是致力以牺牲多数类的预测性能来提高少数类的预测性能,而且大部分方法都是没有考虑数据分布问题。为了提高少数类的性能,已经做了很多尝试,主要分为三类:一是通过过采样增加少数类的数量或者通过欠采样减少多数类的数量来使数据集平衡,减轻分类器对多数类的偏向;二是给多数类与少数类不同的学习权重,增加分类器对少数类的重视;三是对现有算法的修改或者用集成来减轻不平衡带来的分类偏斜,提高分类器对少数类的预测性能。现在有许多研究来提高信用评分模型的预测性能,但是还没有方法考虑到类边界并将CTGAN[其中,CT为ConditionalTabular的简称,GAN的英文全称为Generative Adversarial Networks,中文一般称作对抗生成网络)]用于信用评分中。
发明内容
本发明的主要目的在于提出一种基于类边界的重采样集成学习模型的信用风险评估方法、计算机系统及存储介质,旨在解决现有信用风险评估中因为数据类别不平衡导致的少数类用户的预测的准确率低问题。
为实现上述目的,本发明提供一种基于类边界的重采样集成学习模型的信用风险评估方法,包括步骤:
S1,对训练集中的数据样本采用KNN分类算法对所述样本数据的进行分类,将所述训练集的中数据样本划分为类边界样本集与非边界样本集;
S2,将所述类边界样本集中的数据样本划分为第一多数类数据样本集(Maj_b)和第一少数类数据样本集(Min_b);
S3,将所述非边界样本集中的数据样本划分为第二多数类数据样本集(Maj)和第二少数类数据样本集(Min);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110820804.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:智能充电站及智能充电方法
- 下一篇:多人睡眠的监测方法