[发明专利]分类模型的训练方法和训练装置在审
申请号: | 201910414262.5 | 申请日: | 2019-05-17 |
公开(公告)号: | CN111950579A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 叶韵 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/66 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 许蓓 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 模型 训练 方法 装置 | ||
1.一种分类模型的训练方法,包括:
将真实样本数据和所述真实样本数据的标签数据输入待训练的分类模型,得到所述分类模型输出的第一组输出值,基于预设的第一损失函数和第一组输出值计算第一损失,并计算所述第一损失函数在所述分类模型当前参数下的第一梯度信息;
将生成样本数据输入所述分类模型,得到所述分类模型输出的第二组输出值,基于预设的用于抑制所有输出类别激活的第二损失函数和第二组输出值计算第二损失,并计算所述第二损失函数在所述分类模型当前参数下的第二梯度信息;
根据所述第一损失和所述第二损失判断所述分类模型是否收敛,在所述分类模型未收敛的情况下,基于第一梯度信息和第二梯度信息的梯度叠加信息,按照梯度下降的方法更新所述分类模型的参数,并对所述分类模型继续进行训练。
2.如权利要求1所述的方法,其中,第二损失函数根据所述第二组输出值中每个输出类别上的输出值与数值小的预设值之间的差值信息确定。
3.如权利要求2所述的方法,其中,第二损失函数的公式表示为:
其中,c表示输入输出类别的数量,i表示其中某个输出类别,表示所述分类模型在输出类别i上的输出值,T表示数值小的预设值,max表示取最大值的运算,Lss,m表示第二损失。
4.如权利要求3所述的方法,其中,T小于或等于log0.0001。
5.如权利要求1所述的方法,其中,所述生成样本数据通过生成模型生成,其中,所述生成模型的特征层被配置为添加噪声。
6.如权利要求1所述的方法,还包括:
利用收敛的分类模型对输入的图像数据进行分类。
7.如权利要求1所述的方法,其中,
所述分类模型为图像分类模型;
所述真实样本数据为真实事物的图像数据,所述真实样本数据的标签数据为标注的真实事物的种类,所述第一组输出值为真实事物的图像数据在各个种类上的概率;
所述生成样本数据为对真实事物的图像数据添加噪声得到的虚假事物的图像数据,所述第二组输出值为虚假事物的图像数据在各个种类上的概率。
8.一种分类模型的训练装置,包括:
第一训练单元,被配置为将真实样本数据和所述真实样本数据的标签数据输入待训练的分类模型,得到所述分类模型输出的第一组输出值,基于预设的第一损失函数和第一组输出值计算第一损失,并计算所述第一损失函数在所述分类模型当前参数下的第一梯度信息;
第二训练单元,被配置为将生成样本数据输入所述分类模型,得到所述分类模型输出的第二组输出值,基于预设的用于抑制所有输出类别激活的第二损失函数和第二组输出值计算第二损失,并计算所述第二损失函数在所述分类模型当前参数下的第二梯度信息;
判断单元,被配置为根据所述第一损失和所述第二损失判断所述分类模型是否收敛;
模型参数更新单元,被配置为在所述分类模型未收敛的情况下,基于第一梯度信息和第二梯度信息的梯度叠加信息,按照梯度下降的方法更新所述分类模型的参数,以便继续执行所述第一训练单元、所述第二训练单元、所述判断单元和所述模型参数更新单元,对所述分类模型继续进行训练。
9.如权利要求8所述的装置,其中,第二损失函数的公式表示为:
其中,c表示输入输出类别的数量,i表示其中某个输出类别,表示所述分类模型在输出类别i上的输出值,T表示数值小的预设值,max表示取最大值的运算,Lss,m表示第二损失。
10.如权利要求8所述的装置,其中,所述生成样本数据通过生成模型生成,其中,所述生成模型的特征层被配置为添加噪声。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910414262.5/1.html,转载请声明来源钻瓜专利网。