[发明专利]模型训练、样本平衡方法及装置以及个人信用评分系统有效

专利信息
申请号: 201510981091.6 申请日: 2015-12-23
公开(公告)号: CN106909981B 公开(公告)日: 2020-08-25
发明(设计)人: 席炎;王晓光;赵科科;张柯;毛旭东;杨旭;蔡宁 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06Q10/04
代理公司: 北京国昊天诚知识产权代理有限公司 11315 代理人: 黄熊
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 模型 训练 样本 平衡 方法 装置 以及 个人信用 评分 系统
【说明书】:

本申请公开一种针对不平衡样本集的模型训练方法及装置,对不平衡样本集进行样本平衡后再训练模型,从而提高模型的性能。该方法包括:获取不平衡样本集,所述不平衡样本集中包含负样本和正样本,且负样本与正样本的样本数量比大于不平衡阈值,所述不平衡阈值大于1;根据所述不平衡样本集中的正样本,以及与所述正样本相邻的样本,建立合成正样本,所述与所述正样本相邻的样本包含负样本和/或正样本;当合成正样本与正样本的数量之和与负样本数量的比值在平衡阈值区间内时,将合成正样本修改为正样本,生成平衡样本集;根据所述平衡样本集进行模型训练。本申请还公开一种针对不平衡样本集的样本平衡方法及装置以及一种个人信用评分系统。

技术领域

本申请涉及互联网技术领域,尤其涉及一种针对不平衡样本集的模型训练方法及装置、一种针对不平衡样本集的样本平衡方法及装置、以及一种个人信用评分系统。

背景技术

随着大数据时代的到来,可以根据历史数据以及历史数据对应的结果进行分析,从而预测未来可能发生的事。比如,根据历史数据以及对应的结果生成至少包含正负两种样本的样本集,根据样本集训练特定的模型。当模型接收到现有的数据时,就可以预测现有数据对应的结果。具体比如,根据癌症患者与健康人的历史数据(包括:病历、饮食、作息等等)生成包含正样本(癌症患者)和负样本(健康人)的样本集,并根据该样本集训练癌症预测模型,当癌症预测模型接收到疑似癌症患者的历史数据时,就可以预测出患癌症的可能性,从而及早治疗。

在训练模型时如果基于平衡样本集进行训练,通常都会得到较好的性能,平衡样本集是指样本中包含的种类的数量相差不多,比如,新生儿样本的男女比例会接近1:1。然而,随着信息化的发展,预测小概率事件成为了各行各业的焦点,比如预测患癌症的概率,预测用户信用卡逾期的概率,预测金融市场突变的概率等。但这些小概率事件的样本都存在一个共性,就是样本集的严重失衡,癌症患者是少数,信用卡逾期的人是少数,金融市场的突变也是少有的,在根据不平衡样本集进行模型训练时,往往会存在偏性,从而影响模型的性能。

现有技术为了实现样本平衡,采用的方式多为过抽样处理,即随机复制少数类样本,从而达到少数类样本与多数类样本的数量达到平衡的目的,但是随机复制的结果就是会出现完全相同的至少两个样本,但在实际应用中,一般不会出现完全相同的两个样本,所以仅仅是简单复制的处理方式,显然会导致样本的真实性较低。基于真实性较低的样本进行模型训练也势必会影响模型的性能。

发明内容

本申请实施例提供一种针对不平衡样本集的模型训练方法,对不平衡样本集进行样本平衡后再训练模型,从而提高模型的性能。

本申请实施例提供一种针对不平衡样本集的模型训练装置,对不平衡样本集进行样本平衡后再训练模型,从而提高模型的性能。

本申请实施例提供一种针对不平衡样本集的样本平衡方法,用于在对不平衡样本集进行过抽样处理时,提高处理后的样本集的真实性。

本申请实施例提供一种针对不平衡样本集的样本平衡装置,用于在对不平衡样本集进行过抽样处理时,提高处理后的样本集的真实性。

本申请实施例提供一种个人信用评分系统,用于提高个人信用评分的真实性。

本申请实施例采用下述技术方案:

一种针对不平衡样本集的模型训练方法,包括:

获取不平衡样本集,所述不平衡样本集中包含负样本和正样本,且负样本与正样本的样本数量比大于不平衡阈值,所述不平衡阈值大于1;

根据所述不平衡样本集中的正样本,以及与所述正样本相邻的样本,建立合成正样本,所述与所述正样本相邻的样本包含负样本和/或正样本;

当合成正样本与正样本的数量之和与负样本数量的比值在平衡阈值区间内时,将合成正样本修改为正样本,生成平衡样本集;

根据所述平衡样本集进行模型训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510981091.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top