[发明专利]分类模型训练方法、装置、计算设备及存储介质在审

申请号：	202110481964.2	申请日：	2021-04-30
公开（公告）号：	CN113011532A	公开（公告）日：	2021-06-22
发明（设计）人：	吴天博;王健宗;黄章成	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	熊永强
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分类模型训练方法装置计算设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种分类模型训练方法、装置、计算设备及存储介质，其中，方法包括将训练样本输入分类模型，得到训练样本属于每个类别的预测概率分布；计算目标损失和惩罚项，其中惩罚项用于指示预测概率分布中负类的离散程度。将目标损失与惩罚项之和记为总损失，根据总损失更新分类模型参数。在传统模型训练中，由于损失函数的局限性，忽略了模型对负类预测的准确度。本申请将负类分布的离散程度作为惩罚项引入模型损失构建新型损失函数，提升原有损失函数的性能，提高了模型的预测能力。

技术领域

本申请涉及深度学习领域，具体涉及一种分类模型训练方法、装置、计算设备及存储介质。

背景技术

多分类任务的目的是对一个输入数据赋予合适的类别标签。在多分类任务中，数据的类别标签仅有一个，通过分类模型预测类别标签概率，将概率最大的标签作为数据的类别。

在分类模型的训练中使用损失函数来进行参数更新，多分类任务中常用的损失函数为交叉熵损失。但交叉熵损失函数只关心对于正类标签预测概率的准确性，在实际使用中导致训练出的模型预测准确度低，无法取得很好的效果。

发明内容

本申请提供一种分类模型训练方法、装置、计算设备及存储介质，将模型对负类标签预测的准确度纳入模型损失的计算，提高分类模型的预测能力。

第一方面，本申请提供一种分类模型训练方法，包括：将训练样本输入分类模型，得到训练样本属于每个类别的预测概率分布，预测概率分布为分类模型预测的训练样本属于每个类别的预测概率；根据预测概率分布与训练样本的实际标签分布，计算目标损失，实际标签分布为训练样本属于每个类别的实际概率，目标损失用于指示分类模型预测概率分布与实际标签分布之间的误差；根据预测概率分布中负类的预测概率分布，计算惩罚项，惩罚项用于指示预测概率分布中负类的离散程度；将目标损失与惩罚项之和记为总损失，根据总损失更新分类模型参数，得到训练好的分类模型。

分类模型为自监督预训练模型，需要使用训练样本对模型进行训练，根据模型预测结果计算模型损失，向减少模型损失的方向进行反向传播更新分类模型参数，从而提高分类模型的预测能力。

在一种可能的实现方式中，根据预测概率分布中负类的预测概率分布，计算惩罚项，包括：获取预测概率分布中负类的预测概率分布；根据负类的预测概率分布计算负类的预测概率分布的方差；根据分类标签数、正类标签数以及负类的预测概率分布的方差，确定惩罚项。

原有的损失函数只关注到了模型对正类的预测是否准确而忽略了负类分布的情况，出于减少模型误判的考虑，结果中正负类概率的差别更明显的预测效果更好。将负类预测概率分布的方差作为惩罚项，使得负类结果分布更均匀的结果模型损失更小。

在一种可能的实现方式中，根据预测概率分布中负类的预测概率分布，计算惩罚项，包括：获取预测概率分布中负类的预测概率分布；根据负类的预测概率分布计算负类的预测概率分布的极差，极差为负类的预测概率分布中最大预测概率与最小预测概率之差；根据负类的预测概率分布的极差，确定惩罚项。

原有的损失函数只关注到了模型对正类的预测是否准确而忽略了负类分布的情况，出于减少模型误判的考虑，结果中正负类概率的差别更明显的预测效果更好。将负类预测概率分布的极差作为惩罚项，使得负类结果分布更均匀的结果模型损失更小。

在一种可能的实现方式中，根据预测概率分布与训练样本的实际标签分布，计算目标损失包括：根据预测概率分布中第i个类别的预测概率与第i个类别的实际概率，计算交叉熵损失作为目标损失，其中，i的取值为1到N，N为分类标签数。

在一种可能的实现方式中，根据总损失更新分类模型参数，得到训练好的分类模型包括：基于总损失进行反向传播，得到分类模型中多个网络层的梯度；基于多个网络层的梯度，对多个网络层进行参数更新。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技（深圳）有限公司，未经平安科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110481964.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种车辆蓄电池状态监测方法及系统
下一篇：一种精密汽车设备注塑模具的顶出装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]分类模型训练方法、装置、计算设备及存储介质在审

专利文献下载