[发明专利]模型训练、样本平衡方法及装置以及个人信用评分系统有效
申请号: | 201510981091.6 | 申请日: | 2015-12-23 |
公开(公告)号: | CN106909981B | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 席炎;王晓光;赵科科;张柯;毛旭东;杨旭;蔡宁 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/04 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 黄熊 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 样本 平衡 方法 装置 以及 个人信用 评分 系统 | ||
本申请公开一种针对不平衡样本集的模型训练方法及装置,对不平衡样本集进行样本平衡后再训练模型,从而提高模型的性能。该方法包括:获取不平衡样本集,所述不平衡样本集中包含负样本和正样本,且负样本与正样本的样本数量比大于不平衡阈值,所述不平衡阈值大于1;根据所述不平衡样本集中的正样本,以及与所述正样本相邻的样本,建立合成正样本,所述与所述正样本相邻的样本包含负样本和/或正样本;当合成正样本与正样本的数量之和与负样本数量的比值在平衡阈值区间内时,将合成正样本修改为正样本,生成平衡样本集;根据所述平衡样本集进行模型训练。本申请还公开一种针对不平衡样本集的样本平衡方法及装置以及一种个人信用评分系统。
技术领域
本申请涉及互联网技术领域,尤其涉及一种针对不平衡样本集的模型训练方法及装置、一种针对不平衡样本集的样本平衡方法及装置、以及一种个人信用评分系统。
背景技术
随着大数据时代的到来,可以根据历史数据以及历史数据对应的结果进行分析,从而预测未来可能发生的事。比如,根据历史数据以及对应的结果生成至少包含正负两种样本的样本集,根据样本集训练特定的模型。当模型接收到现有的数据时,就可以预测现有数据对应的结果。具体比如,根据癌症患者与健康人的历史数据(包括:病历、饮食、作息等等)生成包含正样本(癌症患者)和负样本(健康人)的样本集,并根据该样本集训练癌症预测模型,当癌症预测模型接收到疑似癌症患者的历史数据时,就可以预测出患癌症的可能性,从而及早治疗。
在训练模型时如果基于平衡样本集进行训练,通常都会得到较好的性能,平衡样本集是指样本中包含的种类的数量相差不多,比如,新生儿样本的男女比例会接近1:1。然而,随着信息化的发展,预测小概率事件成为了各行各业的焦点,比如预测患癌症的概率,预测用户信用卡逾期的概率,预测金融市场突变的概率等。但这些小概率事件的样本都存在一个共性,就是样本集的严重失衡,癌症患者是少数,信用卡逾期的人是少数,金融市场的突变也是少有的,在根据不平衡样本集进行模型训练时,往往会存在偏性,从而影响模型的性能。
现有技术为了实现样本平衡,采用的方式多为过抽样处理,即随机复制少数类样本,从而达到少数类样本与多数类样本的数量达到平衡的目的,但是随机复制的结果就是会出现完全相同的至少两个样本,但在实际应用中,一般不会出现完全相同的两个样本,所以仅仅是简单复制的处理方式,显然会导致样本的真实性较低。基于真实性较低的样本进行模型训练也势必会影响模型的性能。
发明内容
本申请实施例提供一种针对不平衡样本集的模型训练方法,对不平衡样本集进行样本平衡后再训练模型,从而提高模型的性能。
本申请实施例提供一种针对不平衡样本集的模型训练装置,对不平衡样本集进行样本平衡后再训练模型,从而提高模型的性能。
本申请实施例提供一种针对不平衡样本集的样本平衡方法,用于在对不平衡样本集进行过抽样处理时,提高处理后的样本集的真实性。
本申请实施例提供一种针对不平衡样本集的样本平衡装置,用于在对不平衡样本集进行过抽样处理时,提高处理后的样本集的真实性。
本申请实施例提供一种个人信用评分系统,用于提高个人信用评分的真实性。
本申请实施例采用下述技术方案:
一种针对不平衡样本集的模型训练方法,包括:
获取不平衡样本集,所述不平衡样本集中包含负样本和正样本,且负样本与正样本的样本数量比大于不平衡阈值,所述不平衡阈值大于1;
根据所述不平衡样本集中的正样本,以及与所述正样本相邻的样本,建立合成正样本,所述与所述正样本相邻的样本包含负样本和/或正样本;
当合成正样本与正样本的数量之和与负样本数量的比值在平衡阈值区间内时,将合成正样本修改为正样本,生成平衡样本集;
根据所述平衡样本集进行模型训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510981091.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:立体楼体模型(色彩明艳模型)
- 下一篇:立体楼体模型(金黄色皇室模型)