[发明专利]神经网络模型的蒸馏方法、装置及电子系统在审
申请号: | 202111135637.8 | 申请日: | 2021-09-27 |
公开(公告)号: | CN114037046A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 张培圳;康子健 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 安卫静 |
地址: | 100096 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 蒸馏 方法 装置 电子 系统 | ||
本发明提供了一种神经网络模型的蒸馏方法、装置及电子系统,涉及人工智能技术领域,获取训练样本图片和该训练样本图片的标注信息;该标注信息用于指示该训练样本图片中物体的属性;通过学生模型对该训练样本图片进行特征提取,得到第一特征;基于该第一特征和该标注信息,通过教师模型处理得到该训练样本图片的第二特征;根据该第一特征和该第二特征确定教师模型和学生模型之间的蒸馏损失;基于该蒸馏损失更新学生模型的参数。本发明可以缓解教师模型和学生模型之间的语义鸿沟问题,提高教师模型向学生模型蒸馏知识的效果。
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种神经网络模型的蒸馏方法、装置及电子系统。
背景技术
在模型蒸馏中,并不是老师模型越复杂,蒸馏得到的学生模型学习能力就越好,反而是效果太强的老师模型蒸馏的学生模型的效果会有效果不佳的风险,这被认为是老师-学生之间的语义鸿沟。
为缓解上述语义鸿沟的现象,目前提出了两种解决方式。一种方式是“逐级蒸馏”体系,通过引入效果介于学生模型和老师模型之间的助教模型,先由老师模型蒸馏助教模型,再由助教模型蒸馏学生模型。这种逐级蒸馏的方式通常需要穿插一个以上的助教网络以获得较优效果,从而需要较长的蒸馏时间。另一种方式为“共蒸馏”体系,其通过设计一群网络架构相同的学生模型,并通过不同的初始化使同种架构的学生模型也具有学习偏差,训练时将所有学生模型的预测结果取平均,用此平均结果对每一个学生模型的预测结果进行蒸馏。对其中任意一个学生网络而言,由其他学生网络构成的整体即相当于老师网络。该方式中,多个学生模型彼此架构相近,所以会消泯老师-学生之间一部分语义鸿沟。该方式中所有学生模型并行计算,蒸馏效率较高,但因为没有引入学习能力更强的老师模型,使得该方法的蒸馏效果上限不高。
整体而言,现有用于缓解老师-学生之间语义鸿沟的技术,无法同时兼顾蒸馏时长和蒸馏效果。
发明内容
有鉴于此,本发明的目的在于提供一种神经网络模型的蒸馏方法、装置及电子系统,可以在不增加蒸馏时长的情况下,提升模型蒸馏的效果。
第一方面,本发明实施例提供了一种神经网络模型的蒸馏方法,包括:获取训练样本图片和该训练样本图片的标注信息;该标注信息用于指示该训练样本图片中物体的属性;通过学生模型对该训练样本图片进行特征提取,得到第一特征;基于该第一特征和该标注信息,通过教师模型处理得到该训练样本图片的第二特征;根据该第一特征和该第二特征确定教师模型和学生模型之间的蒸馏损失;基于该蒸馏损失更新学生模型的参数。
在本发明较佳的实施例中,基于该第一特征和该标注信息,通过教师模型处理得到该训练样本图片的第二特征的步骤,包括:基于该第一特征确定训练样本图片中物体的语义特征;基于该标注信息确定该训练样本图片中物体的标签特征;通过教师模型对该语义特征和该标签特征进行交互处理,得到该训练样本图片的第二特征。
在本发明较佳的实施例中,通过教师模型对该语义特征和该标签特征进行交互处理,得到该训练样本图片的第二特征的步骤,包括:根据该训练样本图片中物体的语义特征和标签特征,确定该训练样本图片中物体的实例特征;对该实例特征进行渲染处理,得到该训练样本图片的第二特征。
在本发明较佳的实施例中,根据该训练样本图片中物体的语义特征和标签特征,确定该训练样本图片中物体的实例特征的步骤,包括:将该训练样本图片中所有物体的标签特征堆叠成第一矩阵,将该训练样本图片中所有物体的语义特征堆叠成第二矩阵;复制该第二矩阵得到第三矩阵;将该第一矩阵和该第二矩阵的转置作矩阵乘法后,除以该第一特征的通道数得到第四矩阵;对该第四矩阵的每一行进行归一化处理后,与该第三矩阵作矩阵乘法,得到第五矩阵;将该第五矩阵中每一行的行向量确定为该训练样本图片中物体的实例特征。
在本发明较佳的实施例中,对该实例特征进行渲染处理,得到该训练样本图片的第二特征的步骤,包括:遍历该训练样本图片中的每个物体,将每个物体的实例特征填充到该物体的二值掩膜中值为1的位置,得到该训练样本图片的第二特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111135637.8/2.html,转载请声明来源钻瓜专利网。