[发明专利]模型迭代训练方法及装置在审

申请号：	201811324203.0	申请日：	2018-11-08
公开（公告）号：	CN109669964A	公开（公告）日：	2019-04-23
发明（设计）人：	张敏	申请（专利权）人：	建湖云飞数据科技有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06K9/62
代理公司：	南京常青藤知识产权代理有限公司 32286	代理人：	金迪
地址：	224000 江苏省盐城市建湖县高新***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	迭代测试样本迭代训练样本随机选取样本库清洁度分类模型模型训练训练模型正例样本负样本正样本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种模型迭代训练方法，包括：在第一样本库中选取第一迭代负面样本，所述第一迭代负面样本为第一样本库中除第一迭代正例样本之外的其余样本；在所述第一迭代正面样本中随机选取第一数量的第一测试样本，在所述第一迭代负面样本中随机选取第二数量的第二测试样本，根据所述第一数量的第一测试样本以及第二数量的第二测试样本对待训练模型进行模型训练，得到第一迭代训练模型，如此迭代训练，通过不断增加正样本数量提升了负样本的清洁度，如此而训练得到的分类模型稳定性较好。

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种模型迭代训练方法及装置。

背景技术

当前数据挖掘技术受到了各个领域人员的极大关注。数据挖掘的基本任务为海量数据进行分类，而对数据分类通常基于训练好的分类模型实现。

现在技术中在训练分类模型时，首先选取用于模型训练的正样本和负样本。其中，正样本指代训练模型用的样本库中已被标记的样本。如具有相同需求或兴趣的一类人群，负样本从样本库中未被标记的样本里选取。之后，根据该正例样本和该负例样本进行一轮模型训练，得到分类模型。然而往往负样本的清洁度会存在不高的问题，导致正例与负例样本区分度不够好，使用这样的样本数据对模型进行训练，模型稳定性不够好，模型的分类准确率等评估指标会相当低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种模型迭代训练方法。所述技术方案如下：

一方面，本发明实施例提供了一种模型迭代训练方法，所述方法包括：

在第一样本库中选取第一迭代负面样本，所述第一迭代负面样本为第一样本库中除第一迭代正例样本之外的其余样本；

在所述第一迭代正面样本中随机选取第一数量的第一测试样本，在所述第一迭代负面样本中随机选取第二数量的第二测试样本，所述第一数量与第二数量相等；

根据所述第一数量的第一测试样本以及第二数量的第二测试样本对待训练模型进行模型训练，得到第一迭代训练模型；

采用所述第一迭代训练模型对第二样本库进行分类测试，当测试结果不符合预定要求时，利用所述第一迭代训练模型对第一样本库进行分类，根据所述分类结果，在第一样本库中确定第二迭代预测正面样本，对于第二迭代预测正面样本中的所有样本，分别确定其被分类为正例样本的可能性值，在所述第二迭代预测正面样本中选取被分类为正例样本的可能性值最高的预设数目个样本，将所述预设数目个样本确定为第二特殊正面样本；

将所述第一迭代正面样本和所述第二特殊正面样本确定为第二迭代正面样本，确定所述第一样本库中除所述第二迭代正面样本外的其余样本第二迭代正面样本为第二迭代负面样本；

根据所述第二迭代正面样本和所述第二迭代负面样本，对所述第一迭代训练模型进行迭代训练。

优选地，所述根据第一迭代正面样本和第一迭代负面样本进行模型训练，包括：

基于待训练模型，计算所述第一迭代正面样本和所述第一迭代负面样本的特征向量，所述待训练模型为上一轮训练过程得到的分类模型，所述待训练模型的分类类别根据配置的样本特征数据确定；

根据所述第一迭代正面样本中每一个样本的特征向量和所述第一迭代负面样本中每一个样本的特征向量，对第一迭代正面样本和第一迭代负面样本进行分类；

根据样本分类结果和对所述第一迭代正面样本的标记结果，优化所述待训练模型的各个参数，得到所述第一迭代训练模型。

本发明实施例提供的技术方案带来的有益效果是：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于建湖云飞数据科技有限公司，未经建湖云飞数据科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811324203.0/2.html，转载请声明来源钻瓜专利网。