[发明专利]一种神经网络模型知识蒸馏方法、系统、设备及介质在审
申请号: | 202010850266.0 | 申请日: | 2020-08-21 |
公开(公告)号: | CN111985620A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 朱克峰;阚宏伟;仝培霖 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王雨 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 模型 知识 蒸馏 方法 系统 设备 介质 | ||
本申请公开了一种神经网络模型知识蒸馏方法、系统、设备及介质,获取待知识蒸馏的第一神经网络模型;获取第二神经网络模型;生成用于对第二神经网络模型进行训练的目标样本集;将目标样本集作为第二神经网络模型的输入,将第一神经网络模型的输出作为第二神经网络模的输出,对第二神经网络模型进行知识蒸馏,得到目标神经网络模型。本申请中,在进行神经网络模型知识蒸馏的过程中,并不是直接应用第一神经网络模型训练过程中应用的训练样本集进行知识蒸馏,而是重新生成新的目标样本集来进行知识蒸馏,无需获取训练样本集,可以提高神经网络模型知识蒸馏的效率。
技术领域
本申请涉及神经网络模型技术领域,更具体地说,涉及一种神经网络模型知识蒸馏方法、系统、设备及介质。
背景技术
随着人工智能与深度神经网络模型的快速发展与应用,如何将已训练模型中的知识转移到新的目标任务中成为深度学习领域重要的研究方向。很多实际应用场景(如边缘推理计算)常需要更小更高效的模型,需要把大模型“精简”成小模型才能具体应用落地。模型蒸馏技术是对模型进行压缩的重要手段。
然而,现有模型蒸馏方法中需要已训练模型之前训练所用的训练集数据,或者需要之前训练数据集的部分子集及其分布情况,在实际应用中,训练数据集常常非常巨大很难获取,无法实操,影响神经网络模型知识蒸馏的效率。
综上所述,如何提高神经网络模型知识蒸馏的效率是目前本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种神经网络模型知识蒸馏方法,其能在一定程度上解决如何提高神经网络模型知识蒸馏的效率的技术问题。本申请还提供了一种神经网络模型知识蒸馏系统、设备及计算机可读存储介质。
为了实现上述目的,本申请提供如下技术方案:
一种神经网络模型知识蒸馏方法,包括:
获取待知识蒸馏的第一神经网络模型;
获取第二神经网络模型;
生成用于对所述第二神经网络模型进行训练的目标样本集;
将所述目标样本集作为所述第二神经网络模型的输入,将所述第一神经网络模型的输出作为所述第二神经网络模的输出,对所述第二神经网络模型进行知识蒸馏,得到目标神经网络模型。
优选的,所述生成用于对所述第二神经网络模型进行训练的目标样本集,包括:
选取所述第二神经网络模型的数据集中定义的一个数据类别;
生成与所述数据类别对应的随机噪声图像;
选取图像生成算法,基于所述图像生成算法对所述随机噪声图像进行图像生成,得到目标图像;
将所述目标图像作为所述目标样本集的样本。
优选的,所述将所述目标图像作为所述目标样本集的样本之后,所述将所述目标样本集作为所述第二神经网络模型的输入之前,还包括:
统计所述目标样本集中的样本数;
判断所述样本数是否小于预设数值;
若所述样本数小于所述预设数值,则返回执行所述选取所述第二神经网络模型的数据集中定义的一个数据类别的步骤;
若所述样本数大于等于所述预设数值,则执行所述将所述目标样本集作为所述第二神经网络模型的输入的步骤。
优选的,所述选取图像生成算法,基于所述图像生成算法对所述随机噪声图像进行图像生成,得到目标图像,包括:
选取图像生成算法;
对所述图像生成算法的超参数进行设定;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010850266.0/2.html,转载请声明来源钻瓜专利网。