[发明专利]基于逆时针逐块知识蒸馏的神经网络模型压缩方法及系统在审
申请号: | 202310628289.0 | 申请日: | 2023-05-29 |
公开(公告)号: | CN116663621A | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 何为凯;曾亚琳;王伟;高建永;张肖;刘存根;杨富春 | 申请(专利权)人: | 山东开泰抛丸机械股份有限公司;山东开泰智能抛喷丸技术研究院有限公司 |
主分类号: | G06N3/0495 | 分类号: | G06N3/0495;G06N3/096 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 于凤洋 |
地址: | 256217*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 逆时针 知识 蒸馏 神经网络 模型 压缩 方法 系统 | ||
本公开提供了基于逆时针逐块知识蒸馏的神经网络模型压缩方法及系统,涉及机器学习技术领域,包括获取构建并训练好的教师模型,并保存训练教师模型时所使用的损失函数;将所述教师模型由浅到深划分N个子网块,并以N‑1个子网块为基础分别构造N‑1个学生模型子网块;利用所述损失函数,将获得的N‑1个学生模型子网块按照自顶向下的顺序依次替换教师模型中最浅层子网块之外的N‑1个子网块获取到中间模型;利用损失函数将中间模型进行训练至收敛得到压缩后的目标学生模型。有利于减少学生模型对教师模型的依赖性并使得学生模型找到更适合自己的参数分布;使学生模型关注教师模型中更高级的信息从而缓解学生模型和教师模型之间的代沟问题。
技术领域
本公开涉及机器学习技术领域,具体涉及一种基于逆时针逐块知识蒸馏的神经网络模型压缩方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
深度学习是人工智能领域中极其重要的一个方向,它的出现使得人工智能领域产生了革命性的变化,它成功的促进了各种真实场景任务的发展,比如图像分类、图像生成、目标检测、文本分类。深度学习模型强大的功能往往受益于其庞大的参数量,而在工业界很多领域需要的却是轻量级的深度学习模型,因此如何有效地降低深度学习模型大小和计算量并且不会造成模型性能的过多损失是目前的研究热点。
模型压缩是一种将大型神经网络模型转变为更轻量级神经网络的方法,逐块知识蒸馏方法属于模型压缩方法的一种,它通过逐块优化的方式,将教师模型子网块序列替换成学生模型子网块序列从而获得轻量级且高效的学生模型。
教师和学生模型由于容量的巨大差异导致它们存在着“代沟”,性能更强的教师模型在有时候反而会得到更差的学生模型。
之前基于逐块知识蒸馏的方法忽视了神经网络模型中位于不同层次的子网块之间具有的功能和结构差异性而对这些子网块采用同样的处理,也并未针对教师模型和学生模型之间存在的代沟做出对应措施而是迫使学生子网块去恢复教师子网块的输出。
发明内容
本公开为了解决上述问题,提出了基于逆时针逐块知识蒸馏的神经网络模型压缩方法及系统,采用逆时针逐块知识蒸馏方法来应对教师模型和学生模型之间的代沟问题,并设计一种对神经网络内部不同子网块采取不同处理的学生子网块设计方法。
根据一些实施例,本公开采用如下技术方案:
基于逆时针逐块知识蒸馏的神经网络模型压缩方法,包括:
获取构建并训练好的教师模型,并保存训练教师模型时所使用的损失函数;
将所述教师模型由浅到深划分N个子网块,教师模型最浅层的子网块直接作为学生模型最浅层子网块,并以教师模型最浅层子网块之外的N-1个子网块为基础分别构造N-1个学生模型子网块;
利用所述损失函数,将获得的N-1个学生模型子网块按照自顶向下的顺序依次替换教师模型中最浅层子网块之外的N-1个子网块获取到中间模型;
利用损失函数将中间模型进行训练至收敛得到压缩后的目标学生模型。
根据一些实施例,本公开采用如下技术方案:
基于逆时针逐块知识蒸馏的神经网络模型压缩系统,包括:
数据加载模块,用于获取构建并训练好的教师模型,并保存训练教师模型时所使用的损失函数;
压缩模块,用于将所述教师模型由浅到深划分N个子网块,教师模型最浅层的子网块直接作为学生模型最浅层子网块,并以教师模型最浅层子网块之外的N-1个子网块为基础分别构造N-1个学生模型子网块;利用所述损失函数,将获得的N-1个学生模型子网块按照自顶向下的顺序依次替换教师模型中最浅层子网块之外的N-1个子网块获取到中间模型;利用损失函数将中间模型进行训练至收敛得到压缩后的目标学生模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东开泰抛丸机械股份有限公司;山东开泰智能抛喷丸技术研究院有限公司,未经山东开泰抛丸机械股份有限公司;山东开泰智能抛喷丸技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310628289.0/2.html,转载请声明来源钻瓜专利网。