[发明专利]用于使用知识蒸馏训练神经网络模型的方法和系统在审
申请号: | 202180054067.1 | 申请日: | 2021-09-09 |
公开(公告)号: | CN116134454A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 佩曼·帕斯班;吴伊萌;梅赫迪·雷扎霍利扎德 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/096 | 分类号: | G06N3/096;G06N3/0455;G06N3/084 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 蔡维华;刘芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 使用 知识 蒸馏 训练 神经网络 模型 方法 系统 | ||
描述了用于将神经模型的训练知识从复杂模型(教师)转移到较不复杂模型(学生)的无关组合知识蒸馏(CKD)方法。除了训练学生以生成近似于教师最终输出和训练输入的真值两者的最终输出外,该方法还通过训练学生的隐藏层来最大化知识转移,以生成输出,该输出近似于映射到针对给定训练输入的学生隐藏层中的每一层的教师隐藏层的子集的表征。
相关申请的交叉申请
本申请要求2020年9月9日提交的名称为“用于使用知识蒸馏训练神经网络模型的方法和系统(METHOD AND SYSTEM FOR TRAINING A NEURAL NETWORK MODEL USINGKNOWLEDGE DISTILLATION)”、申请号为63/076,335的美国临时专利申请和2021年9月8日提交的名称为“用于使用知识蒸馏训练神经网络模型的方法和系统(METHOD AND SYSTEM FORTRAINING A NEURAL NETWORK MODEL USING KNOWLEDGE DISTILLATION)”、申请号为17/469,573的美国专利申请的在先申请优先权和权益,这些申请的内容通过引用并入本文。
技术领域
本申请涉及用于训练机器学习模型的方法和系统,尤其涉及用于使用知识蒸馏训练深度神经网络的方法和系统。
背景技术
机器学习模型针对每个接收的输入推断(即预测)特定输出。推断的(即预测的)特定输出可以以la可以属于的形式出现。例如,机器学习模型可以基于接收的图像推断(即预测)特定输出,推断的(即预测的)输出包括一组类别中的每个类别的概率分数,其中每个分数表示图像类似于属于该特定类别的对象的概率。
机器学习模型是使用学习算法进行学习的,如随机梯度下降。使用此类技术学习的机器学习模型是近似于该输入到输出过程的深度人工神经网络。用于近似机器学习模型的深度人工神经网络包括输入层、一个或多个隐藏层、以及输出层,其中所有隐藏层都具有参数,并且非线性应用于这些参数。用于近似机器学习模型的深度人工神经网络通常被称为神经网络模型。
知识蒸馏(Knowledge distillation,KD)是神经网络压缩技术,通过该技术,复杂神经网络模型的学习参数或知识被转移到较不复杂的神经网络模型,该神经网络模型能够以较少的计算资源成本和时间作出与复杂模型相当的推断(即预测)。在此,复杂神经网络模型是指具有相对高数量的计算资源(如GPU/CPU功率和计算机内存空间)的神经网络模型和/或包括相对高数量的隐藏层的那些神经网络模型。为了KD的目的,复杂神经网络模型有时被称为教师神经网络模型(teacher neural network model,T)或简称教师。教师的典型缺点是,其可能需要显著的计算资源,这些计算资源在消费电子设备(如移动通信设备或边缘计算设备)中可能不可用。此外,由于教师神经网络模型本身的复杂度,教师神经网络模型通常需要显著量的时间来推断(即预测)针对输入的特定输出,并且因此教师神经网络模型可能不适合部署到消费计算设备以在其中使用。因此,KD技术应用于提取或蒸馏教师神经网络模型的学习参数或知识,并将此类知识传授给具有更快的推断时间和降低的计算资源和内存空间成本的较不复杂的神经网络模型,这可能会在消费计算设备(如边缘设备)上花费更少的精力。较不复杂的神经网络模型通常被称为学生神经网络模型(studentneural network model,S)或简称学生。
现有技术的KD技术仅考虑针对接收的输入的特定输出的最终推断(即预测)以计算损失函数,因此现有技术的KD技术不能处理从教师的隐藏层到学生的隐藏层的知识转移。因此,可以提高KD技术的准确性,尤其是对于具有多个深度隐藏层的教师和学生神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180054067.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:脂肪酸视黄酯形成的减少
- 下一篇:靶向人和小鼠INSL5的化合物和方法