[发明专利]一种基于师生协同的知识蒸馏方法在审
申请号: | 202210254811.9 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114611670A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 李刚;高文建;徐传运;张杨;刘欢;王影;郑宇;徐昊;张晴;宋志瑶;马莹丽;曹铠洪;陈志远;朱鑫;李梦伟;白南兰;陈鹏;孙成杰;王克亚 | 申请(专利权)人: | 重庆理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06Q50/20 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 黄河 |
地址: | 400054 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 师生 协同 知识 蒸馏 方法 | ||
1.一种基于师生协同的知识蒸馏方法,其特征在于,包括以下步骤:
S1:构建经过预先训练的教师网络,以及具有多层级的分支输出的学生网络;
S2:将训练数据分别输入教师网络和学生网络,得到教师网络输出的概率分布以及各个分支输出的概率分布和特征;
S3:通过教师网络输出的概率分布和各个分支输出的概率分布计算各个分支的知识蒸馏损失;然后通过各个分支输出的概率分布和特征计算各个分支的自蒸馏损失;最后通过各个分支的知识蒸馏损失和自蒸馏损失计算对应的整体损失函数,并更新学生网络的参数;
S4:对学生网络各个分支输出的概率分布进行融合,得到对应的最终概率分布;
S5:重复步骤S1至S4,直至学生网络训练至收敛。
2.如权利要求1所述的基于师生协同的知识蒸馏方法,其特征在于:步骤S1中,使用过参数化的ResNet模型或VGG模型作为教师网络,并对教师网络进行训练。
3.如权利要求1所述的基于师生协同的知识蒸馏方法,其特征在于:步骤S1中,在学生网络的不同阶段添加自适应瓶颈层和全连接层,使得学生网络能够形成由浅到深的多个层级的分支输出。
4.如权利要求1所述的基于师生协同的知识蒸馏方法,其特征在于:步骤S2中,自适应瓶颈层的结构由1x1、3x3、1x1的三层卷积模块组成,其自适应体现在根据不同特征图的大小使用不同数量的瓶颈模块。
5.如权利要求1所述的基于师生协同的知识蒸馏方法,其特征在于:步骤S3中,分支的知识蒸馏损失包括教师网络输出的概率分布和对应分支输出的概率分布之间的KL散度,以及对应分支输出的概率分布与训练数据的真实标签之间的交叉熵损失。
6.如权利要求5所述的基于师生协同的知识蒸馏方法,其特征在于:步骤S3中,知识蒸馏损失通过如下公式计算:
其中,yt=ft(x,wt);
yi=fs(x,ws);
式中:表示第i个分支的知识蒸馏损失;i∈[1,n];T2LKL(yi,yt)表示教师网络输出的概率分布yt和第i个分支输出的概率分布yi之间的KL散度;LCE(yi,y)表示第i个分支输出的概率分布yi与训练数据的真实标签y之间的交叉熵损失;wt、ws表示教师网络和学生网络的权重参数;x表示教师网络和学生网络的输入;ft和fs表示教师网络和学生网络的特征。
7.如权利要求1所述的基于师生协同的知识蒸馏方法,其特征在于:步骤S3中,分支的自蒸馏损失包括对应分支输出的概率分布与主干网络输出的概率分布之间的KL散度,以及对应分支输出的特征与主干网络输出的特征之间的L2损失;其中,将最深层级分支的输出作为主干网络的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210254811.9/1.html,转载请声明来源钻瓜专利网。