[发明专利]多教师自适应联合知识蒸馏在审
申请号: | 202011421445.9 | 申请日: | 2020-12-08 |
公开(公告)号: | CN112418343A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 郭雨;潘嵘 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈伟斌 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 教师 自适应 联合 知识 蒸馏 | ||
1.多教师自适应联合知识蒸馏,其特征在于,选择深度神经网络教师模型的中间层特征进行融合,并用加权预测融合各个教师模型的预测结果,得到最终特征让学生模型学习并构造学生模型的最终损失函数;损失函数具体为:
其中,ys是学生模型的logits输出,y是真实标签;是学生模型输出的概率分布和教师模型输出的概率分布;As,At是学生模型和教师模型提取的特征;α是个超参数,用来控制两种损失的权重;β是控制损失的权重的超参数;T作为温度,用来平滑这两个概率分布。
2.根据权利要求1所述的多教师自适应联合知识蒸馏,其特征在于,具体包括如下步骤:
步骤一:构建基于卷积神经网络的残差网络作为教师模型,通过不同的初始化参数训练许多个教师模型直至收敛;
步骤二:将训练好的多个教师网络的特征输入到一个深度神经网络进行二次分类,将深度神经网络的中间层作为教师模型的特征融合模型;
步骤三:将同一批训练数据输入教师模型和学生模型,得到各个教师模型的特征和概率分布;
步骤四:用步骤二中训练好的深度神经网络融合特征,用加权预测融合各个教师模型的预测结果;
步骤五:根据损失函数,并基于损失函数更新学生模型的参数,固定其他模型的参数;
步骤六:重复步骤一至步骤五,直到学生模型收敛。
3.根据权利要求2所述的多教师自适应联合知识蒸馏,其特征在于,在所述步骤二中,教师模型特征融合模型的获得方法是通过将训练样本输入到训练好的教师模型会得到特征和预测结果,然后将特征都拼接起来的到最终特征,用最终特征和样本标签训练一个深度神经网络,训练好的神经网络的中间层是融合后的特征,且与每个教师模型的特征纬度一致。
4.根据权利要求3所述的多教师自适应联合知识蒸馏,其特征在于,训练学生模型,将经过相同处理后的图片同时输入到学生模型和教师模型中,得到各个教师模型的特征和概率分布。
5.根据权利要求4所述的多教师自适应联合知识蒸馏,其特征在于,损失函数中学生模型的logits输出ys和真实标签y的交叉熵损失的具体公式为:
其中,j为logits输出向量ys中第j个元素;
损失函数中教师模型的logits和教师模型的logits的KL散度的具体公式为:
其中,分别是教师模型和学生模型得到的概率分布,分别是概率分布中对应的第i个元素;
损失函数中特征间的均方误差损失的具体公式为:
其中,fs为学生模型的特征;ft为多个教师特征融合后的特征;n为特征的元素个数。
6.根据权利要求5所述的多教师自适应联合知识蒸馏,其特征在于,在步骤四中,将步骤三中各个教师模型所提取到的特征输入到步骤二所得到的特征融合模型,并通过训练好的深度神经网络对多个教师得到的特征进行融合,得到融合后的教师模型特征。
7.根据权利要求6所述的多教师自适应联合知识蒸馏,其特征在于,在步骤四中,用加权预测融合各个教师模型的预测结果的方法是:通过教师模型和真实标签得出不同教师模型对该样本的预测结果的权重,然后对不同的教师模型进行加权求和得到最终的概率分布。
8.根据权利要求7所述的多教师自适应联合知识蒸馏,其特征在于,教师模型输出logits分布的计算公式具体为:
其中,wi,为第i个教师对应的权重和logits分布,是第i个教师的lOgits分布中第z个元素,其中z是正确的类别标签。是第i个教师的logits分布中第j个元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011421445.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种去自由基的中药
- 下一篇:一种米露饮品及其加工系统