[发明专利]一种用于神经网络加速的渐进式块知识蒸馏方法在审
申请号: | 201810758814.X | 申请日: | 2018-07-11 |
公开(公告)号: | CN108921294A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 李玺;赵涵斌;汪慧 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 蒸馏过程 网络 复杂网络 蒸馏 神经网络 块参数 学生 随机初始化 加速算法 模型压缩 网络模型 相关参数 硬件架构 最优参数 子网络 按块 教师 压缩 | ||
本发明公开了一种用于神经网络加速的渐进式块知识蒸馏方法,方法具体包括以下步骤:输入原复杂网络和相关参数;将原复杂网络分成多个子网络块,按块设计学生子网络块并随机初始化参数;将输入的原复杂网络作为第一次块蒸馏过程的教师网络,块蒸馏过程完成得到一个学生网络,其中第一个学生子网络块参数最优;将上一次块蒸馏过程得到的学生网络作为下一次块蒸馏过程的教师网络,得到下一个学生网络,其中块蒸馏结束的学生子网络块参数最优;所有子网络块蒸馏过程完成,得到最终的简单学生网络以及最优参数。本发明能在一般的硬件架构上能够达到对模型压缩加速的效果,同时实现简单,是一个既有效并且实用简单的深度网络模型压缩加速算法。
技术领域
本发明涉及深度网络模型压缩加速领域,尤其涉及一种用于神经网络加速的渐进式块知识蒸馏方法。
背景技术
从2016年开始,人工智能热潮席卷了全球。包括谷歌、微软、百度、阿里巴巴、腾讯等国内外各大公司纷纷投入大量的力量到有关人工智能的研究中;中国政府在不久前也发布了《新一代人工智能发展规划》,制定了未来中国人工智能发展的目标。这几年来,深度学习的迅猛发展,使得计算机视觉、自然语言处理等一系列领域的最先进的算法性能都有了跨越式的进展。在人工智能领域,传统的芯片计算架构无法支撑深度学习等并行计算的需求,面对未来10年高达2000亿美元的市场,谷歌、英伟达等国内外芯片公司纷纷投入研究新的人工智能芯片(云端训练、云端推理、设备端推理、类脑芯片)来更好地储备数据、加速计算过程。但在工业界深度学习算法却还没得到较好的应用,其中一个原因是深度神经网络的模型庞大、计算量巨大,动辄数百兆的深度神经网络部署到实际产品中困难较大。另一方面,在一些嵌入式的平台上,存储计算资源都十分有限,深度学习算法的移植更加困难。所以,研究深度网络模型的压缩加速,是一个对工业界和学术界都非常有价值的问题,以ResNet-50为例,它有50层卷积网络、超过95MB的储存需求,如果剪枝一些冗余的权重后,其大概能节约75%的参数和50%的计算时间。当前主要用于深度网络模型压缩加速的方案有参数剪枝和共享、低秩分解、知识蒸馏等。有些方案(如低秩分解)只能够实现理论上对模型的压缩加速,但在实际硬件结构上依然无法达到对模型加速的效果;有些方案(如知识蒸馏)能够在实际的硬件条件下实现对模型的压缩加速,但是实现起来较复杂。本发明基于这些问题,致力于研究设计出一个既有效并且实用简单的深度网络模型压缩加速算法,能在一般的硬件架构上能够达到对模型压缩加速的效果,同时实现起来相对简单。
目前有关压缩和加速卷积神经网络模型的方法大致可以分为四种方案:基于参数剪枝与共享的方法(又包括模型量化和二值化、参数共享、结构矩阵三类),基于低秩分解的方法,基于转换卷积滤波器的方法,基于知识蒸馏的方法。从原理上来说,前三种方案的想法都关注如何通过不同的低存储成本的计算加速技术来获得一个有效的网络,通过计算加速角度的方案大多在实现运用上需要配合一定的硬件支持;相反,第四种方案知识蒸馏是通过一个教师-学生的学习策略来实现将原来的网络模型压缩成一个低复杂度的模型的目的,在不损失太多模型准确率的情况下,低复杂度的网络模型能够具备高运算效率以及较少的存储开销,因此知识蒸馏方案相比前三种方案在应用上所需的硬件要求更少。然而,对于知识蒸馏方案,对模型蒸馏过程的有效性经常受到两方面的困难,一方面来自教师-学生网络的优化问题,另一方面是关于学生网络结构的设计问题。知识蒸馏方案的缺陷是对于如何设计以及学习一个好的学生网络非常困难。对于知识蒸馏方案,对模型蒸馏过程的有效性经常受到两方面的困难,一方面来自教师-学生网络的优化问题,另一方面是关于学生网络结构的设计问题。大多现有的策略从教师模型中都只用一步的机制来获得学生模型,在一个巨大搜索空间中找到逼近教师网络函数的学生网络函数需要非常多的网络配置,在实际中,这个非联合优化过程也是难以处理和不稳定的。通过子网络块的形式的蒸馏方案是非常容易优化的,但是不能够有效地保持层特定子网络块之间的序列依赖关系。另外,现有的对学生子网络块的设计准则也不能很好地保护原子网络块在特征提取中的感受野信息。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810758814.X/2.html,转载请声明来源钻瓜专利网。