[发明专利]神经网络模型的优化方法及装置、电子设备和存储介质有效

申请号：	201811093816.8	申请日：	2018-09-19
公开（公告）号：	CN109447258B	公开（公告）日：	2021-09-14
发明（设计）人：	罗棕太;张学森;伊帅;闫俊杰;王晓刚	申请（专利权）人：	北京市商汤科技开发有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/06
代理公司：	北京林达刘知识产权代理事务所(普通合伙) 11277	代理人：	刘新宇
地址：	100084 北京市海淀区中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	神经网络模型优化方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种神经网络模型的优化方法及装置、电子设备和存储介质。该方法包括：将输入数据分别输入第一神经网络模型和第二神经网络模型，基于从第一神经网络模型的输出层之前的全连接层中选取的部分神经元，得到第一神经网络模型的输出，并基于从第二神经网络模型的输出层之前的全连接层中选取的部分神经元，得到第二神经网络模型的输出；确定第一神经网络模型的输出与期望输出两者之间的第一交叉熵；确定第一神经网络模型的输出相对于第二神经网络模型的输出的第一相对熵；基于第一交叉熵和第一相对熵，优化第一神经网络模型。本公开实施例能够稳定提高神经网络模型的准确率，并能够增强神经网络模型的泛化能力。

技术领域

本公开涉及深度学习技术领域，尤其涉及一种神经网络模型的优化方法及装置、电子设备和存储介质。

背景技术

目前，神经网络模型被应用于计算机视觉和自然语言处理等各个方面(例如行人检索和人脸识别)，并取得了较好的效果。在神经网络模型训练完成之后，测试的准确率往往限制了神经网络模型的准确率的上限。

相关技术中，通常通过增加训练数据的总量、改变神经网络模型的结构或者对模型进行细微调整和重训练，来提高神经网络模型的准确率。这些方法都对数据量提出了非常高的要求。增加训练数据的总量和细微调整不一定能提高神经网络模型的准确率，可能的原因是数据质量参差不齐导致神经网络模型的训练难度增加。改变神经网络模型的结构通常没有一个明确的标准，因此无法保证训练后神经网络模型的准确率。

发明内容

本公开提出了一种神经网络模型的优化技术方案。

根据本公开的一方面，提供了一种神经网络模型的优化方法，包括：

从第一神经网络模型的输出层之前的全连接层中选取部分神经元，从第二神经网络模型的输出层之前的全连接层中选取部分神经元；

将输入数据分别输入所述第一神经网络模型和所述第二神经网络模型，基于从所述第一神经网络模型的输出层之前的全连接层中选取的部分神经元，得到所述第一神经网络模型的输出，并基于从所述第二神经网络模型的输出层之前的全连接层中选取的部分神经元，得到所述第二神经网络模型的输出；

确定所述第一神经网络模型的输出与期望输出两者之间的第一交叉熵；

确定所述第一神经网络模型的输出相对于所述第二神经网络模型的输出的第一相对熵；

基于所述第一交叉熵和所述第一相对熵，优化所述第一神经网络模型。

在一种可能的实现方式中，从第一神经网络模型的输出层之前的全连接层中选取部分神经元，包括：

从第一神经网络模型的输出层之前的最后一个全连接层中选取部分神经元；

从第二神经网络模型的输出层之前的全连接层中选取部分神经元，包括：

从第二神经网络模型的输出层之前的最后一个全连接层中选取部分神经元。