[发明专利]信贷数据样本均衡方法、装置、计算机设备及存储介质有效
申请号: | 202011448174.6 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112364942B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 熊娇;刘雨桐;石强;张兴;王国勋 | 申请(专利权)人: | 润联软件系统(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06Q40/02 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 武志峰 |
地址: | 518000 广东省深圳市福田区梅林街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信贷 数据 样本 均衡 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了信贷数据样本均衡方法、装置、计算机设备及存储介质,该方法包括:对不均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的原始样本集;对n个原始样本集分别进行自适应综合过采样处理,得到n个过采样样本集;且过采样样本集与所述原始样本集一一对应;将每一过采样样本集输入至第一卷积神经网络中进行模型训练,并将对应的所述原始样本集输入至第二卷积神经网络中进行模型训练,构建得到对应的样本均衡模型;将n个目标样本集分别输入到n个样本均衡模型中并输出n个欠采样均衡样本集,对n个欠采样均衡样本集进行堆叠汇总得到最终的信贷数据均衡样本集。本发明可以提高最终的信贷数据均衡样本集的稳定性与有效性。
技术领域
本发明涉及数据处理技术领域,特别涉及信贷数据样本均衡方法、装置、计算机设备及存储介质。
背景技术
随着互联网的发展,市场上涌现越来越多的金融信贷产品,如何帮助产品识别客户信用违约风险,成为这些企业格外关注的工作。但信贷产品的违约表现样本往往为不均衡数据,即交易中只有少部分客户会违约,绝大部分客户是正常的。这样的数据直接训练模型会导致模型偏训,从而在测试集上的泛化性不佳,为这类识别工作带来难度。目前,解决样本不均衡的方法主要包括两类:分类器层面,即修改训练算法或对目标函数进行改进;数据层面,即修改各类别的分布。
分类器层面,一般采用的方法是在训练分类器时,分类器将小类样本分错时额外增加分类器一个小类样本分错代价,这个额外的代价可以使得分类器更加“关心”小类样本,如penalized-SVM(惩罚向量机)算法和penalized-LDA(惩罚性分类法)算法。但对于信贷产品来说,这就将模型局限于该种算法,而有些企业的信贷产品建模模型其实基本已经固定,故在很多信贷产品的不均衡样本上该类方法并不适合。
数据层面,一般采用的方法有过采样和欠采样。但简单的过采样,即简单的复制小样本,由于数据单一可能会存在过拟合问题。而随机的欠采样因为只是利用了一部分数据,可能会存在信息减少的问题。目前市面上,常用的方法有SMOTE(Synthetic MinorityOversampling Technique,合成少数类过采样技术)过采样方法和EasyEnsemble(一种不均衡数据分类方法)欠采样方法。SMOTE方法由于对每个少数类样本都生成新样本,因此容易发生生成样本重叠的问题,而EasyEnsemble方法难以选择有效的子集个数和获取优异的样本子集。
随着深度学习的发展,基于其的不均衡样本解决方法目前在图像领域取得很好的成绩,基本上实现的方法都是考虑计算损失时通过给样本加权重来解决,但是缺乏一个均衡数据的结果输出通道。
发明内容
本发明实施例提供了一种信贷数据样本均衡方法、装置、计算机设备及存储介质,旨在提高所得信贷数据均衡样本集的稳定性与有效性。
第一方面,本发明实施例提供了一种信贷数据样本均衡方法,包括:
对不均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的原始样本集;其中,各所述原始样本集中大样本的数量相同且小样本的数量相同;
对n个所述原始样本集分别进行自适应综合过采样处理,得到n个过采样样本集;且所述过采样样本集与所述原始样本集一一对应;
将每一所述过采样样本集输入至第一卷积神经网络中进行模型训练,并将对应的所述原始样本集输入至第二卷积神经网络中进行模型训练,构建得到对应的样本均衡模型;其中,所述样本均衡模型的数量为n个,每一所述样本均衡模型对应一个所述原始样本集和与之对应的过采样样本集;
对待均衡的信贷数据样本集进行切分组合,得到n个包含大样本和小样本的目标样本集;其中,各所述目标样本集中大样本的数量相同且小样本的数量相同;
将n个所述目标样本集分别输入到所述n个样本均衡模型中并输出n个欠采样均衡样本集,对所述n个欠采样均衡样本集进行堆叠汇总得到最终的信贷数据均衡样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于润联软件系统(深圳)有限公司,未经润联软件系统(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011448174.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有减震功能的氧气瓶存储装置
- 下一篇:一种电子烟制造用注油装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置