[发明专利]多教师自适应联合知识蒸馏在审
申请号: | 202011421445.9 | 申请日: | 2020-12-08 |
公开(公告)号: | CN112418343A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 郭雨;潘嵘 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈伟斌 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 教师 自适应 联合 知识 蒸馏 | ||
本发明涉及多教师自适应联合知识蒸馏,对教师模型的中间层特征,选择深度神经网络对这些特征进行融合,并用用加权预测融合各个教师模型的预测结果,得到最终的特征让学生模型学习并构造学生模型的最终损失函数。对于不同的样本,学生模型能够有偏向的学习不同的教师模型的预测结果,将不同教师模型传递的知识有差异的结合,形成更加有效的软标签,引导学生模型的学习,使得学生模型的学习更加有效,令学生模型的最终使用效果更好。
技术领域
本发明涉及知识蒸馏领域,更具体地,涉及多教师自适应联合知识蒸馏。
背景技术
知识蒸馏(knowledge distillation)是一种能让小网络模仿学习大网络,从而提升小网络性能的方法。其主要思想是迁移学习,以预先训练好的复杂而繁重的模型教师模型为目标,让学生模型去学习教师模型得到的暗知识,训练一个简化的、压缩的学生模型。
公开号为“CN108664893A”,公开日为2018年10月16日的中国专利申请公开了一种一种人脸检测方法,包括以下步骤:步骤102,对轻量网络和复杂网络分别输入一批同样的训练图像;步骤104,针对轻量网络和复杂网络的分类图的输出结果,采用难样本挖掘法进行过滤;步骤106,构造综合损失函数,所述综合损失函数包括知识蒸馏损失函数或基于标签的人脸检测损失函数,所述知识蒸馏损失函数根据轻量网络和复杂网络的分类图的输出结果获得;步骤108,基于损失函数,更新轻量网络的参数,不更新复杂网络的参数;步骤110,重复上述步骤,直至轻量网络训练至收敛。在该方法中,轻量网络就是学生模型,复杂网络就是教师模型。
但是在上述的方法中,学生模型和教师模型采用难样本挖掘法进行过滤,构造损失函数的时候也只是根据分类图的输出结果。在这种情况下,如果进行的是多教师知识蒸馏,导致各个教师模型的权重是一样的,没有根据每个教师对于不同样本的重要性设计权重。且对于中间层的特征只是简单的让学生模型去同时拟合多个教师模型,这可能使学生模型学不到每个老师的重要性,只是简单的学习到表面,导致学生模型的学习效果不好。
发明内容
本发明为克服上述现有技术中多教师知识蒸馏的学生模型学习效果差问题,提供多教师自适应联合知识蒸馏,学生模型能够有偏向的学习不同的教师模型的预测结果,将不同教师模型传递的知识有差异的结合,令学生模型既能学习到不同教师模型的不同知识,又能得到真实样本的监督,得出的学生模型更好。
为解决上述技术问题,本发明采用的技术方案是:提供多教师自适应联合知识蒸馏,对教师模型的中间层特征,选择深度神经网络对这些特征进行融合,并用用加权预测融合各个教师模型的预测结果,得到最终的特征让学生模型学习并构造学生模型的最终损失函数为:
其中,ys是学生模型的logits输出,y是真实标签;是学生模型输出的概率分布和教师模型输出的概率分布;As,At是学生模型和教师模型提取的特征;α是个超参数,用来控制两种损失的权重;β是控制损失的权重的超参数;T作为温度,用来平滑这两个概率分布。
教师模型基本结构通常和学生模型一样,但是每一组卷积块的卷积层数目会比学生模型的多,即每一组卷积块的厚度会更厚,因此提取的特征会更精准,性能会更好。教师模型的训练方法和常规的神经网络模型训练方法一样,通过多分类的交叉熵函数作为损失函数,用随机梯度下降作为优化方法进行训练。
优选的,具体包括如下步骤:
步骤一:构建基于卷积神经网络的残差网络作为教师模型,通过不同的初始化参数训练许多个教师模型直至收敛;
步骤二:将训练好的多个教师网络的特征输入到一个深度神经网络进行二次分类,将深度神经网络的中间层作为教师模型的特征融合模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011421445.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种去自由基的中药
- 下一篇:一种米露饮品及其加工系统