[发明专利]一种多重抽样模型训练方法及装置在审

申请号：	201610110893.4	申请日：	2016-02-26
公开（公告）号：	CN107133436A	公开（公告）日：	2017-09-05
发明（设计）人：	张柯;褚崴;施兴;谢树坤;谢锋	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F19/00	分类号：	G06F19/00
代理公司：	杭州君度专利代理事务所(特殊普通合伙)33240	代理人：	诸佩艳
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多重抽样模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于机器学习技术领域，尤其涉及一种多重抽样模型训练方法及装置。

背景技术

“花呗”是蚂蚁金服旗下蚂蚁小贷在淘宝、天猫上提供给消费者“这月买下月还”的网购服务，其本质是小额消费贷款，就目前用户情况来看，贷款额度最低1000元，最高50000元。由于“花呗”与信用卡有着同样的功能—先消费后付款，这就为套现创造了空间。

在“花呗”反套现模型的业务场景中，需要用到机器学习算法对数据进行分类或回归计算，其中，训练样本的质量与数量对模型的预测效果将产生直接影响。另一方面，反套现模型是针对“花呗”卖家所制定的模型，即一个卖家对应一条样本，故数据样本总量不会太大，还远远达不到“大数据”的标准，且部分卖家的信息由于各种原因还存在缺省的现象，如果只是单纯用这些数据进行建模，效果将会大打折扣。

现有技术对小样本数据模型(包括花呗反套现模型)进行建模，主要是将样本总集划分为训练集与验证集，训练集的数据将用于机器学习模型训练，然后利用验证集对模型效果进行验证。这里存在的缺点是，如果训练集的样本划分比例过大，那么验证集的数据量相对减少，从而达不到对模型效果充分验证的目的；但如果训练集的样本划分比例过小，那么训练出的模型将直接由于训练不充分而导致模型预测精度下降。由此可见，由于数据样本量有限而导致的模型训练效果不佳已经成为反套现模型建模中急需解决的问题。

发明内容

本发明的目的是提供一种多重抽样模型训练方法及装置，解决现有技术由于数据样本量有限而导致的模型训练效果不佳问题。

为了实现上述目的，本发明技术方案如下：

一种多重抽样模型训练方法，所述训练方法包括：

对全体样本进行多重抽样，得到每次抽样的训练集和验证集；

以每次抽样得到的训练集和验证集为一组，采用其中的训练集进行模型训练；

采用训练得到的模型分别评估训练集和验证集，根据训练集和验证集的评估结果，以及设定的淘汰准则淘汰训练得到的模型；

采用保留下的模型，对全体样本进行预测，并采用预测得到的结果对保留下的模型进行组合模型训练，得到最终的模型。

进一步第，所述对全体样本进行多重抽样，得到每次抽样的训练集和验证集，包括：

将全体样本分为m个子集，对m个子集进行多重抽样，得到n个训练集和n个验证集。

进一步地，所述采用训练得到的模型分别评估训练集和验证集，根据训练集和验证集的评估结果，以及设定的淘汰准则淘汰训练得到的模型，包括：

采用训练得到的模型分别评估训练集和验证集，得到每个训练得到的模型对应的性能指标；