[发明专利]用于信用评分的欠采样分类集成方法、设备及存储介质在审
申请号: | 202011427138.1 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112541536A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 张在美;袁玉洁;刘彦;谢国琪 | 申请(专利权)人: | 长沙理工大学;湖南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/02 |
代理公司: | 长沙知行亦创知识产权代理事务所(普通合伙) 43240 | 代理人: | 严理佳 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 信用 评分 采样 分类 集成 方法 设备 存储 介质 | ||
1.用于信用评分的欠采样分类集成方法,其特征在于,包括步骤:
S1,获取用户训练集,将所述用户训练集中的样本数据分为多数类数据集与少数类数据集;其中,所述多数类数据集包含m个第一数据样本,所述少数类数据集包含n个第二数据样本;
S2,利用欠采样算法从所述多数类数据集中随机欠采样出预设数量k个多数类数据子集,每个所述多数类数据子集包含n个所述第一数据样本,每次欠采样剩下的m-n个所述第一数据样本形成k个纯多数类数据子集;
S3,将k个所述多数类数据子集分别与所述少数类数据集混合形成k个平衡数据子集;
S4,利用所述k个平衡数据子集学习出k个CART树二分类基分类器;利用所述k个纯多数类数据子集学习出k个OneClassSVM一分类基分类器;
S5,通过bagging算法集成所述k个CART树二分类基分类器和所述k个OneClassSVM一分类基分类器,利用集成策略输出最终结果。
2.根据权利要求1所述的用于信用评分的欠采样分类集成方法,其特征在于,在所述步骤S1中,通过根据所述用户训练集中的样本数据的数据标签划分所述多数类数据集和少数类数据集。
3.根据权利要求1所述的用于信用评分的欠采样分类集成方法,其特征在于,所述步骤S2,包括:
S21,设定所述预设数量值k;
S22,利用欠采样算法从多数类数据集中的m个样本中随机抽取个数为n的所述第一数据样本,将每次抽取的n个所述第一数据样本分别形成所述多数类数据子集;
S23,将每次欠采样后剩余的多数类数据集中的所述第一数据样本形成所述纯多数类数据子集;
S24,判断所述多数类数据子集个数是否达到预设数量值k,未达到返回S22;
S25,所述多数类数据子集个数达到预设数量值k时,执行步骤S3。
4.根据权利要求1所述的用于信用评分的欠采样分类集成方法,其特征在于,所述步骤S4具体包括:
依次利用一个所述平衡数据子集,通过分类算法学习出一个所述CART树模型的二分类基分类器;
依次利用一个所述纯多数类数据子集,通过奇异点检测方法学习出一个所述OneClassSVM模型的一分类基分类器。
5.根据权利要求1所述的用于信用评分的欠采样分类集成方法,其特征在于,所述步骤S5,具体包括:
S51,将所述k个一分类基分类器和二分类基分类器分别放入到所述bagging算法的弱学习器中;
S52,同时训练所述弱学习器;
S53,利用所述bagging算法的集成策略通过求平均值和/或取多数票方式对所述弱学习器进行集成输出最终结果。
6.用于信用评分的欠采样分类集成设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的用于信用评分的欠采样分类集成方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有包含用于信用评分的欠采样分类集成方法的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的用于信用评分的欠采样分类集成方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学;湖南大学,未经长沙理工大学;湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011427138.1/1.html,转载请声明来源钻瓜专利网。