[发明专利]一种通道自关联的知识蒸馏方法与系统有效
申请号: | 202110673166.X | 申请日: | 2021-06-17 |
公开(公告)号: | CN113255899B | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 唐乾坤;徐晓刚;王军;徐冠雷;何鹏飞;曹卫强 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通道 关联 知识 蒸馏 方法 系统 | ||
本发明公开了一种通道自关联的知识蒸馏方法与系统包括以下步骤:步骤S1:向教师模型和学生模型中输入相同的图片数据,得到学生模型和教师模型的图片特征,选定学生模型和教师模型中需要进行知识蒸馏的特征层;步骤S2:将选定的学生模型和教师模型特征层的通道进行通道自关联;步骤S3:自关联后的教师模型通道通过加权方式传输知识至学生模型通道;步骤S4:根据关联的通道蒸馏知识,并进行训练,在训练时同时优化自关联的二维矩阵和学生模型;S5:部署训练好的学生模型,输入图片数据进行推理测试。
技术领域
本发明涉及计算机视觉领域,尤其是涉及一种通道自关联的知识蒸馏方法与系统。
背景技术
目前神经网络虽然获得了很高的性能,但是这些神经网络需要消耗较多的存储和计算资源。因而,为了这些性能好的神经网络能够部署到手机、嵌入式平台等资源受限的平台,模型压缩是一种有效方法。在现有的模型压缩算法中,知识蒸馏是目前的研究热点之一。
知识蒸馏的原理是:以某个性能较好的复杂网络作为教师模型,一个性能较差但轻量级的网络作为学生模型,在学生模型训练时,教师模型的输出或者中间网络层的输出作为软标签以监督学生模型的训练。如果教师模型中间网络层与学生模型的中间网络层通道数目不一致时,现有的技术是使用一个转换层(通常为卷积层),将学生模型的通道数转换成与教师模型相同,这样虽然操作简便,但是转换层包含较多的参数量和计算量,增加了训练和优化负担,而且转换之后采用一对一的手动关联方式也不利于从教师模型中学习到判别性的特征。
本发明提出一种知识蒸馏方法及装置,其特征在于能够在蒸馏知识时,学生模型通道和教师模型通道能够自动关联并传输知识。
发明内容
为解决现有技术的不足,实现教师模型和学生模型自关联的目的,本发明采用如下的技术方案:
一种通道自关联的知识蒸馏方法,包括以下步骤:
步骤S1:向教师模型和学生模型中输入相同的图片数据,得到学生模型和教师模型的图片特征,选定学生模型和教师模型中需要进行知识蒸馏的特征层;
步骤S2:将选定的学生模型和教师模型特征层的通道进行通道自关联;
步骤S3:自关联后的教师模型通道通过加权方式传输知识至学生模型通道;
步骤S4:根据关联的通道蒸馏知识,进行训练,该知识可以为实例关系、激活值或者注意力等,训练时使用知识蒸馏损失及特定任务损失等组成,在训练时同时优化自关联的二维整数矩阵和学生模型:
其中,表示损失函数,
步骤S5:部署训练好的学生模型,输入图片数据进行推理测试。
进一步地,所述步骤S1中,教师模型和学生模型选择现有的任意卷积神经网络模型,并向教师模型和学生模型中输入相同的图片数据,分别从教师模型和学生模型的中间卷积层中选择一个以上特征层;
进一步地,所述步骤S1中,选定的学生模型的中间特征层为: ,选定的教师模型的中间特征层为:,其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110673166.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种动力电池降压电路与供电系统
- 下一篇:一种商品猪的杂交培育方法