[发明专利]基于不均衡数据集的机器学习模型数据处理方法及装置在审
申请号: | 202110789028.8 | 申请日: | 2021-07-13 |
公开(公告)号: | CN113537510A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 李策;朱丹;王若冰 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62;G06Q10/06 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 赵平;董骁毅 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 均衡 数据 机器 学习 模型 数据处理 方法 装置 | ||
本申请实施例提供一种基于不均衡数据集的机器学习模型数据处理方法及装置,涉及人工智能领域,也可用于金融领域,方法包括:对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级;本申请能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。
技术领域
本申请涉及人工智能领域,也可用于金融领域,具体涉及一种基于不均衡数据集的机器学习模型数据处理方法及装置。
背景技术
随着人工智能、大数据技术的发展与普及,机器学习模型在精准营销、反欺诈等方面表现出了一定的优势,在银行业中的应用也越来越广泛。
通常情况下,银行业在使用机器学习技术进行建模的过程中,根据不同的业务问题,其使用的数据的分布、质量都有所差异,建模选取的数据处理、建模方法也不同,需要根据不同的情况,选取相应的评价指标来衡量所建立的机器学习模型的性能及稳定性。
对于银行业最常见的二分类问题,常见的评价方法是基于混淆矩阵开展的,混淆矩阵主要包括四个指标,具体定义如下:
TP=True Positive=真阳性
FP=False Positive=假阳性
FN=False Negative=假阴性
TN=True Negative=真阴性
除此之外,常用的评价指标,如准确率、精确率、召回率、F1值等都是基于混淆矩阵定义的,这些指标也是银行业常用二分类模型的评价指标。
发明人考虑到银行业常用的建模数据中,数据正负样本不平衡的问题十分普遍且严重,数据正负样本比例的不同将会对评价指标产生影响。例如在客户违约预测问题中,发生违约的客户常常只占全量客户非常小的比例,又如在智慧营销问题中,待营销的高价值客户,也只占全量客户的一小部分。这会对模型的评价工作造成较大的影响,具体而言,有如下问题:
1、在正负样本比例不平衡的情况下,部分评价指标(如准确率)可能会虚高。
2、在正负样本比例不平衡的情况下,部分评价指标(如F1值)在测试数据的正负样本比例发生变化时会表现出较大的变化。
3、大部分评价指标都会受数据正负样本比例影响,缺少在正负样本比例发生变化时不受影响的评价方法。
发明内容
针对现有技术中的问题,本申请提供一种基于不均衡数据集的机器学习模型数据处理方法及装置,能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种基于不均衡数据集的机器学习模型数据处理方法,包括:
对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;
根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;
根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。
进一步地,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110789028.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置