[发明专利]任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质在审

专利信息
申请号: 202011030206.0 申请日: 2020-09-25
公开(公告)号: CN112132268A 公开(公告)日: 2020-12-25
发明(设计)人: 马恺声;张林峰 申请(专利权)人: 交叉信息核心技术研究院(西安)有限公司
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08;G06K9/62
代理公司: 北京中巡通大知识产权代理有限公司 11703 代理人: 李宏德
地址: 710077 陕西省西安市高新*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 任务 牵引 特征 蒸馏 深度 神经网络 学习 训练 方法 系统 可读 存储 介质
【说明书】:

发明一种任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质,以数据驱动方式进行特征蒸馏,稳定有效,能够显著提升蒸馏训练的精度。本发明在深度神经网络不同深度的下采样层之前,均增加被训练成执行与深度神经网络相同任务的辅助分类器;辅助分类器通过任务损失训练,从教师模型的整个特征中捕获面向任务特征;采用特征蒸馏损失训练,将教师模型中捕获的面向任务特征提取到学生模型中,用于任务牵引的特征蒸馏深度神经网络学习训练。通过辅助分类器,对面向任务特征通过任务损失实现提取,通过特征蒸馏损失面向任务特征的传递,实现了面向任务的特征蒸馏,用于从教师到学生的面向任务的信息的提取,实现高效可靠的知识蒸馏。

技术领域

本发明涉及深度神经网络的知识蒸馏,具体为任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质。

背景技术

近年来,在自然语言处理和计算机视觉等各种应用中,深度神经网络已经取得了显著的成就。然而,神经网络的成功总是伴随着模型参数和计算的爆炸性增长,这限制了神经网络在例如移动电话和嵌入式设备之类的边缘设备上的部署。已经提出各种技术来解决此问题,包括修剪、量化、轻量化模型设计和知识蒸馏。

Hinton等人首先提出蒸馏的概念,其中训练轻量化学生模型以模拟过度参数化的教师模型的SoftMax输出,即对数。然后,提出了丰富的特征蒸馏方法,鼓励学生模型模仿教师模型的特征。由于教师模型的特征具有比对数更多的信息,因此特征蒸馏使得学生模型能够学习更丰富的信息,并且始终可以提高精度。如图1所示,现有技术中,大多数特征蒸馏方法不是直接学习教师模型的所有特征,而是首先将变换函数应用于特征以将它们转换成易于蒸馏的形式,然后将它们提取给学生。特征蒸馏是知识蒸馏中的一种主要方法,其能够使得蒸馏精度的显著提高,但是大多数现有方法通过手动设计的变换来提取教师网络中的特征;并且在此过程中,有一些不重要的信息被过滤;然而,哪种形式的信息最适合蒸馏,以及哪种变换函数可以提取这种形式的信息,这些仍然是未知的,导致现有的知识蒸馏的可靠性和精度无法满足实际的需求。

发明内容

针对现有技术中存在的问题,本发明提供一种任务牵引的特征蒸馏深度神经网络学习训练方法及系统、可读存储介质,以数据驱动方式进行特征蒸馏,设计合理,稳定有效,能够显著提升蒸馏训练的精度。

本发明是通过以下技术方案来实现:

任务牵引的特征蒸馏深度神经网络学习训练方法,包括,

在深度神经网络不同深度的下采样层之前,均增加被训练成执行与深度神经网络相同任务的辅助分类器;

所述的辅助分类器通过任务损失训练,从教师模型的整个特征中捕获面向任务特征;采用特征蒸馏损失训练,将教师模型中捕获的面向任务特征提取到学生模型中,用于任务牵引的特征蒸馏深度神经网络学习训练。

优选的,所述的辅助分类器由多个卷积层、池化层和全连接层组成。

进一步,通过对数蒸馏损失训练辅助分类器卷积层的卷积变化函数和全连接层。

再进一步,所述的对数蒸馏损失的公式如下,

其中,LKL是KL发散损失,为训练对象,为对应的标签,Fi(·)表示为第i个卷积阶段的特征映射,将Ci(·)表示为第i个卷积阶段中的全连接层,上标t和s分别表示教师模型和学生模型,N为对应神经网络中卷积层的数量。

优选的,所述的辅助分类器采用如下的面向任务的特征蒸馏损失函数进行任务损失训练和特征蒸馏损失训练,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于交叉信息核心技术研究院(西安)有限公司,未经交叉信息核心技术研究院(西安)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011030206.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top