[发明专利]一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法在审
申请号: | 201910725997.X | 申请日: | 2019-08-07 |
公开(公告)号: | CN110472730A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 马恺声;张林峰 | 申请(专利权)人: | 交叉信息核心技术研究院(西安)有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/12;G06K9/62 |
代理公司: | 61200 西安通大专利代理有限责任公司 | 代理人: | 范巍<国际申请>=<国际公布>=<进入国 |
地址: | 710077 陕西省西安*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 浅层 精度提升 蒸馏 分类器 网络 分类器特征 尺寸扩大 尺寸缩小 输出 数据集 挤入 注意力 响应 配合 | ||
本发明一种卷积神经网络的自蒸馏训练方法,通过使卷积神经网络的尺寸缩小而不是使网络的尺寸扩大来显著增强卷积神经网络的性能。在网络自身内蒸馏知识时网络首先被划分为几个部分;然后,网络的较深部分中的知识被挤入浅层部分中。在不以响应时间为代价的情况下,自蒸馏大幅度地提高了卷积神经网络的性能,获得了平均2.65%的精度提升;从对数据集ResNeXt中0.61%的精度提升作为最小值到VGG19中4.07%的精度提升作为最大值。再配合注意力层对浅层分类器特征的强化提取,使得浅层分类器的精度显著提高,从而能够将一个有多个输出的卷积神经网络视为多个卷积神经网络,根据不同的需求,对每个浅层分类器的输出加以利用。
技术领域
本发明涉及卷积神经网络的训练,具体为一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法。
背景技术
卷积神经网络已经被广泛地部署在各种应用场景中。为了将应用的范围扩展到一些精度至关重要的领域,研究人员一直在研究通过更深或更宽的网络结构来提升精度的方法,这会为其带来计算和存储成本的指数式增长,从而会延迟响应时间。
在卷积神经网络的帮助下,诸如图像分类、对象检测和语义分割之类的应用目前正在以前所未有的速度发展。然而,在一些要求不容错的应用,诸如自动驾驶和医学图像分析中,需要进一步改进预测和分析精度,同时需要更短的响应时间。这导致当前卷积神经网络面临巨大的挑战。现有技术中的方法侧重于性能改进或减少计算资源,从而能够减少响应时间。例如,一方面,已经提出了ResNet 150或甚至更大的ResNet 1000用来改善非常有限的性能裕度,但是具有大幅计算代价。另一方面,在与尽力而为网络相比具有预定义的性能损失的情况下,已经提出了各种技术来减少计算和存储量,以匹配硬件实现所带来的限制。这样的技术包括轻量级网络设计、修剪和量化等,其中知识蒸馏(KD)是实现模型压缩的可行方法之一。
作为常见的压缩方法之一,知识蒸馏的灵感来自于从教师到学生的知识转移。其关键策略是将紧凑型学生模型定位为逼近过度参数化的教师模型。因此,学生模型可以获得显著的性能提升,有时甚至比教师的模型更好。通过用紧凑型学生模型替代过度参数化的教师模型,可以实现高压缩和快速加速;知识蒸馏的实施包括两步,第一步训练大的教师模型,以及第二步将知识从教师模型蒸馏到学生模型;但是,其也存在如下问题;第一个问题是关于知识转移的低效,这意味着学生模型几乎不会利用来自教师模型的所有知识。一个优于其教师模型的杰出学生模型仍然很少见。另一个问题是如何设计并训练适当的教师模型,现有的蒸馏框架需要大量的努力和实验才能找到教师模型的最佳架构,这会花费相对长的时间。第三个问题教师模型和学生模型分别以它们自己的方式工作,并且知识转移在不同模型之间流动,就涉及到多个模型的建立,工作繁琐,精度较低。
现有技术中通过提出的自蒸馏训练方法进行高效的训练,但是在自蒸馏过程中分类器的精度较低,并且无法自动分离自己的功能,影响了分类器功能,从而使得训练方法的精度降低。
与此同时,神经网络在处理非线性问题方面有着别的方法无法比拟的优势,而预测控制对于具有约束的卡边操作问题具有非常好的针对性,因此将神经网络与预测控制相结合,发挥各自的优势,对非线性、时变、强约束、大滞后工业过程的控制提供了一个很好的解决方法,因此卷积神经网络广泛的应用在预测领域;现有技术中基于卷积神经网络的预测都需要考虑其响应速度和预测结果的置信度,因此对于不同需求的预测要求,会同时存储多个模型的算法,针对不同的响应速度和正确率的需求,更换不同的模型,则会在切换过程中形成真空期,给现实应用带来安全隐患。
发明内容
针对现有技术中存在的问题,本发明提供一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法,设计合理,高效简单,自蒸馏训练的模型更加平坦,对参数的优化更加稳健。
本发明是通过以下技术方案来实现:
一种卷积神经网络的自蒸馏训练方法,包括如下步骤,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于交叉信息核心技术研究院(西安)有限公司,未经交叉信息核心技术研究院(西安)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910725997.X/2.html,转载请声明来源钻瓜专利网。