[发明专利]模型训练方法、装置、设备及存储介质在审
申请号: | 201810886240.4 | 申请日: | 2018-08-06 |
公开(公告)号: | CN109102076A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 杨少雄;赵晨 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 模型训练 样本数据 存储介质 训练过程 标定结果 目标模型 输出结果 不一致 多轮 申请 输出 | ||
1.一种模型训练方法,其特征在于,包括:
获取样本数据集;
基于所述样本数据集对模型进行多轮训练,在训练过程中,采用前一轮训练中得到的困难样本进行下一轮的训练,直至所述模型基于所述样本数据集中的所有样本均能输出正确结果为止,得到目标模型,其中,所述困难样本是指在训练过程中预先标定结果与模型输出结果不一致的样本。
2.根据权利要求1所述的方法,其特征在于,所述采用前一轮训练中得到的困难样本进行下一轮的训练,包括:
对前一轮训练中得到的困难样本进行数据增量处理,获得增量样本;
基于所述困难样本和所述增量样本进行下一轮训练。
3.根据权利要求2所述的方法,其特征在于,所述对前一轮训练中得到的困难样本进行数据增量处理,获得增量样本,包括:
基于预先设置的GAN网络对前一轮训练中得到的困难样本进行数据增量处理,获得增量样本。
4.根据权利要求2所述的方法,其特征在于,所述对前一轮训练中得到的困难样本进行数据增量处理,获得增量样本,包括:
对前一轮训练中得到的困难样本进行加权求和处理,得到增量样本。
5.根据权利要求2所述的方法,其特征在于,所述对前一轮训练中得到的困难样本进行数据增量处理,获得增量样本,包括:
将前一轮训练中得到的困难样本与前一轮训练中得到的简单样本进行加权求和处理,获得增量样本,其中,所述简单样本是指在训练过程中预先标定结果与模型输出结果一致的样本。
6.一种模型训练装置,其特征在于,包括:
获取模块,用于获取样本数据集;
训练模块,用于基于所述样本数据集对模型进行多轮训练,在训练过程中,采用前一轮训练中得到的困难样本进行下一轮的训练,直至所述模型基于所述样本数据集中的所有样本均能输出正确结果为止,得到目标模型,其中,所述困难样本是指在训练过程中预先标定结果与模型输出结果不一致的样本。
7.根据权利要求6所述的装置,其特征在于,所述训练模块,包括:
增量处理子模块,用于对前一轮训练中得到的困难样本进行数据增量处理,获得增量样本;
训练子模块,用于基于所述困难样本和所述增量样本进行下一轮训练。
8.根据权利要求7所述的装置,其特征在于,所述增量处理子模块,包括:
第一处理子单元,用于基于预先设置的GAN网络对前一轮训练中得到的困难样本进行数据增量处理,获得增量样本。
9.根据权利要求7所述的装置,其特征在于,所述增量处理子模块,包括:
第二处理子单元,用于对前一轮训练中得到的困难样本进行加权求和处理,得到增量样本。
10.根据权利要求7所述的装置,其特征在于,所述增量处理子模块,包括:
第三处理子单元,用于将前一轮训练中得到的困难样本与前一轮训练中得到的简单样本进行加权求和处理,获得增量样本,其中,所述简单样本是指在训练过程中预先标定结果与模型输出结果一致的样本。
11.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810886240.4/1.html,转载请声明来源钻瓜专利网。