[发明专利]一种神经网络模型训练方法、装置、设备及存储介质在审
申请号: | 202110181147.5 | 申请日: | 2021-02-09 |
公开(公告)号: | CN114943331A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 熊凯 | 申请(专利权)人: | 广州视源电子科技股份有限公司;广州视源人工智能创新研究院有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06K9/62 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 模型 训练 方法 装置 设备 存储 介质 | ||
本发明公开了一种神经网络模型训练方法、装置、设备及存储介质。将第一训练样本和第二训练样本输入待训练的神经网络模型中进行处理,得到用于预测第一训练样本属于各类别的概率向量,以及由第二训练样本的特征向量组成的特征矩阵,基于概率向量计算一批第一训练样本的分类损失,以及基于特征矩阵的低秩约束计算一批第二训练样本的正则化损失,通过在分类损失中加入基于低秩约束的正则化损失,能够将人对这个神经网络模型的先验知识融入到模型的学习当中,引导模型学习出更加紧凑和更具判别性的特征,同时降低了神经网络模型的复杂度,防止神经网络模型过拟合,从而提升模型的泛化性能,即提高神经网络模型在实际应用中的预测准确度。
技术领域
本发明实施例涉及机器学习技术,尤其涉及一种神经网络模型训练方法、装置、设备及存储介质。
背景技术
随着人工智能的发展,深度神经网络以其强大的拟合能力在众多领域取得了惊人的成绩。为了得到更好的神经网络泛化能力,现有的网络结构变得越来越复杂,网络的参数量也呈现爆炸式增长的趋势,复杂的神经网络将导致模型出现过拟合现象。即模型在训练集上表现的很好,但是在测试集或实际应用过程中上表现一般,导致模型在实际应用中预测准确度较低。
发明内容
本发明提供一种神经网络模型训练方法、装置、设备及存储介质,能够有效防止神经网络模型出现过拟合的现象,提高神经网络模型在实际应用中的预测准确度。
第一方面,本发明实施例提供了一种神经网络模型训练方法,包括:
获取用于训练神经网络模型的一批第一训练样本和一批第二训练样本;
将所述第一训练样本输入待训练的神经网络模型中进行处理,得到用于预测所述第一训练样本属于各类别的概率向量;
将所述第二训练样本输入待训练的神经网络模型中进行处理,得到由所述第二训练样本的特征向量组成的特征矩阵,所述第二训练样本的特征向量用于表征所述第二训练样本的属性;
基于所述概率向量计算一批所述第一训练样本的分类损失;
基于所述特征矩阵的低秩约束计算一批所述第二训练样本的正则化损失;
基于所述分类损失和所述正则化损失更新所述神经网络模型的参数。
第二方面,本发明实施例还提供了一种神经网络模型训练装置,包括:
训练样本获取模块,用于获取用于训练神经网络模型的一批第一训练样本和一批第二训练样本;
概率向量获取模块,用于将所述第一训练样本输入待训练的神经网络模型中进行处理,得到用于预测所述第一训练样本属于各类别的概率向量;
特征矩阵获取模块,用于将所述第二训练样本输入待训练的神经网络模型中进行处理,得到由所述第二训练样本的特征向量组成的特征矩阵,所述第二训练样本的特征向量用于表征所述第二训练样本的属性;
分类损失计算模块,用于基于所述概率向量计算一批所述第一训练样本的分类损失;
正则化损失计算模块,用于基于所述特征矩阵的低秩约束计算一批所述第二训练样本的正则化损失;
参数更新模块,用于基于所述分类损失和所述正则化损失更新所述神经网络模型的参数。
第三方面,本发明实施例还提供了一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明第一方面提供的神经网络模型训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司;广州视源人工智能创新研究院有限公司,未经广州视源电子科技股份有限公司;广州视源人工智能创新研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110181147.5/2.html,转载请声明来源钻瓜专利网。