[发明专利]模型训练方法、装置以及计算机可读存储介质在审
申请号: | 202011427624.3 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112529209A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 孟嘉琪 | 申请(专利权)人: | 上海云从企业发展有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 屠晓旭;宋宝库 |
地址: | 201203 上海市浦东新区中国(上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 以及 计算机 可读 存储 介质 | ||
1.一种模型训练方法,其特征在于,所述方法包括:
利用初始训练集对预设的数据处理模型进行训练,获取第一数据处理模型;
利用测试集对所述第一数据处理模型以及多个第二数据处理模型分别进行测试,获取所述第一数据处理模型分别与每个所述第二数据处理模型在所述测试集上的第一模型损失差值;
根据所述第一模型损失差值获取所述初始训练集内的异常样本,并且根据所述异常样本对所述初始训练集进行样本调整,获取优化的训练集;
利用所述优化的训练集对所述第一数据处理模型进行训练,以获取最终的数据处理模型;
其中,不同的第二数据处理模型被配置成根据所述初始训练集下不同的子训练集训练得到,所述不同的子训练集之间相差一个或多个不同的被删除样本。
2.根据权利要求1所述的模型训练方法,其特征在于,“获取所述第一数据处理模型分别与每个所述第二数据处理模型在所述测试集上的第一模型损失差值”的步骤具体包括:
获取利用所述初始训练集对所述预设的数据处理模型进行训练后,得到的所述第一数据处理模型的多个备选数据处理模型;
利用所述测试集对所述多个备选数据处理模型分别进行测试,以获取最优的备选数据处理模型作为最终的第一数据处理模型并且获取所述最终的第一数据处理模型的第一模型参数;
根据所述第一模型参数,拟合利用所述测试集对当前被删除样本对应的第二数据处理模型的多个备选数据处理模型分别进行测试,获取最优的备选数据处理模型作为最终的第二数据处理模型并且获取所述最终的第二数据处理模型的第二模型参数,其中,所述多个备选数据处理模型是利用所述当前被删除样本对应的子训练集对所述预设的数据处理模型进行训练得到的;
采用稳健统计方法,对所述第二模型参数与所述最终的第二数据处理模型在所述测试集上的模型损失进行影响分析,以获取所述当前被删除样本对应的第一模型损失差值。
3.根据权利要求2所述的模型训练方法,其特征在于,所述方法包括根据所述第一模型参数并且按照下式所示的方法,拟合得到所述第二模型参数:
其中,所述表示拟合得到的所述最终的第二数据处理模型的第二模型参数,所述zdel表示所述当前被删除样本;所述表示所述第一模型参数;所述L表示对预设的数据处理模型进行训练与测试时使用的损失函数;所述zi表示所述训练集内的第i个样本且zi=(xi,yi),xi表示样本zi中的图像样本,yi表示所述图像样本的标签,i=1,...,n;所述ε1表示预设的所述当前被删除样本zdel的样本权重且
4.根据权利要求2所述的模型训练方法,其特征在于,“获取所述当前被删除样本对应的第一模型损失差值”的步骤具体包括:
基于稳健统计方法中的影响函数理论,构建下式所示的所述第二模型参数与所述最终的第二数据处理模型在所述测试集上的模型损失的影响函数,根据所述影响函数计算所述第一模型损失差值:
其中,所述Γup,loss(zdel,ztest)表示所述第一模型损失差值,所述ztest表示所述测试集,所述L表示对预设的数据处理模型进行训练与测试时使用的损失函数,所述表示根据所述损失函数L计算出的损失值对所述模型参数θ求梯度,所述T表示对经计算出的梯度向量进行转置;所述表示所述第二模型参数;所述zdel表示所述当前被删除样本,所述表示所述最终的第二数据处理模型的经验风险的Hessian矩阵且
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云从企业发展有限公司,未经上海云从企业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011427624.3/1.html,转载请声明来源钻瓜专利网。