[发明专利]基于不均衡数据集的机器学习模型数据处理方法及装置在审

专利信息
申请号: 202110789028.8 申请日: 2021-07-13
公开(公告)号: CN113537510A 公开(公告)日: 2021-10-22
发明(设计)人: 李策;朱丹;王若冰 申请(专利权)人: 中国工商银行股份有限公司
主分类号: G06N20/00 分类号: G06N20/00;G06K9/62;G06Q10/06
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 赵平;董骁毅
地址: 100140 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 均衡 数据 机器 学习 模型 数据处理 方法 装置
【说明书】:

本申请实施例提供一种基于不均衡数据集的机器学习模型数据处理方法及装置,涉及人工智能领域,也可用于金融领域,方法包括:对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级;本申请能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。

技术领域

本申请涉及人工智能领域,也可用于金融领域,具体涉及一种基于不均衡数据集的机器学习模型数据处理方法及装置。

背景技术

随着人工智能、大数据技术的发展与普及,机器学习模型在精准营销、反欺诈等方面表现出了一定的优势,在银行业中的应用也越来越广泛。

通常情况下,银行业在使用机器学习技术进行建模的过程中,根据不同的业务问题,其使用的数据的分布、质量都有所差异,建模选取的数据处理、建模方法也不同,需要根据不同的情况,选取相应的评价指标来衡量所建立的机器学习模型的性能及稳定性。

对于银行业最常见的二分类问题,常见的评价方法是基于混淆矩阵开展的,混淆矩阵主要包括四个指标,具体定义如下:

TP=True Positive=真阳性

FP=False Positive=假阳性

FN=False Negative=假阴性

TN=True Negative=真阴性

除此之外,常用的评价指标,如准确率、精确率、召回率、F1值等都是基于混淆矩阵定义的,这些指标也是银行业常用二分类模型的评价指标。

发明人考虑到银行业常用的建模数据中,数据正负样本不平衡的问题十分普遍且严重,数据正负样本比例的不同将会对评价指标产生影响。例如在客户违约预测问题中,发生违约的客户常常只占全量客户非常小的比例,又如在智慧营销问题中,待营销的高价值客户,也只占全量客户的一小部分。这会对模型的评价工作造成较大的影响,具体而言,有如下问题:

1、在正负样本比例不平衡的情况下,部分评价指标(如准确率)可能会虚高。

2、在正负样本比例不平衡的情况下,部分评价指标(如F1值)在测试数据的正负样本比例发生变化时会表现出较大的变化。

3、大部分评价指标都会受数据正负样本比例影响,缺少在正负样本比例发生变化时不受影响的评价方法。

发明内容

针对现有技术中的问题,本申请提供一种基于不均衡数据集的机器学习模型数据处理方法及装置,能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。

为了解决上述问题中的至少一个,本申请提供以下技术方案:

第一方面,本申请提供一种基于不均衡数据集的机器学习模型数据处理方法,包括:

对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;

根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;

根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。

进一步地,还包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110789028.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top