[发明专利]计算机执行的神经网络模型获取方法及装置在审
申请号: | 202011593032.9 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112686299A | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 张选杨 | 申请(专利权)人: | 北京迈格威科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G06N3/04 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李英艳;李志新 |
地址: | 100080 北京市海淀区科*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机 执行 神经网络 模型 获取 方法 装置 | ||
本公开提供了一种计算机执行的神经网络模型获取方法、模型训练方法、目标分类方法、用于计算机的神经网络模型获取装置、模型训练装置、目标分类装置、电子设备和计算机可读存储介质,其中计算机执行的神经网络模型获取方法包括:获取训练集,其中,所述训练集包括多个训练数据及所述训练数据对应的分类标签;基于所述训练集训练初始状态的超网络,得到训练完成的超网络;基于所述训练完成的超网络,进行模型搜索,得到多个由候选节点组成的子网络,形成候选集;基于候选集中子网络的参数的变化程度,确定神经网络模型。能够不依赖于训练数据的分类标签质量,降低了成本,并能够得到更优质的目标分类模型的网络架构。
技术领域
本公开一般地涉及图像处理领域,具体涉及一种计算机执行的神经网 络模型获取方法、模型训练方法、目标分类方法、用于计算机的神经网络 模型获取装置、模型训练装置、目标分类装置、电子设备和计算机可读存 储介质。
背景技术
目前,在一些分类任务中,例如对图像进行分类识别的广泛发展与应 用,离不开深度学习。图片分类中用到的卷积神经网络(Convolutional Neural Networks,CNN)网络框架从简单的VGG(Visual Geometry Group Network)模型、到残差网络(ResidualNetwork,ResNet)再到Imagenet 等等,不断发展,但是人为设计网络框架,不仅耗时而且容易出错。为此 人们想出了自动搜索神经网络架构。一方面,自动神经网络架构搜索(Neural Architecture Search,NAS)可以遍历架构找到性能最优的架构,另 一方面自动神经网络架构搜索还可以打破人类思维的局限性找到人类所 想不到的架构组织方式。人们通过对搜索空间,搜索策略以及能评估策略 的不断改进,使得神经架构搜索使用的GPU(Graphics Processing Unit, 图形处理器)的数量和耗时越来越少,越来越亲民。
如前所述,对于网络模型的参数可以通过训练进行调整,而网络模型 的架构则可以通过神经网络架构搜索实现,找到更优的神经网络架构。
在神经网络架构搜索过程中,同样需要大量的训练数据,训练数据具 有分类标签。大量的训练数据的成本很高,人工标注也费时费力,准确性 也难以保证。
发明内容
为了解决现有技术中存在的上述问题,本公开的第一方面提供一种计 算机执行的神经网络模型获取方法,其中,所述神经网络模型获取方法包 括:获取训练集,其中,所述训练集包括多个训练数据及所述训练数据对 应的分类标签;基于所述训练集训练初始状态的超网络,得到训练完成的 超网络,其中,所述超网络包括多个候选节点;基于所述训练完成的超网 络,进行模型搜索,得到多个由所述候选节点组成的子网络,形成候选集;基于所述候选集中子网络的参数的变化程度,确定神经网络模型,其中, 所述候选集中子网络的参数的变化程度包括,所述子网络的参数在训练后 与训练前相比的变化程度。
在一实施例中,所述子网络的参数的变化程度,通过以下方式确定: 基于组成所述子网络的候选节点在训练前的参数,确定第一向量;基于组 成所述子网络的候选节点在训练后的参数,确定第二向量;基于所述第一 向量和所述第二向量之间的距离,确定所述子网络的参数的变化程度。
在一实施例中,所述第一向量和所述第二向量之间的距离包括以下任 一项:余弦距离、欧氏距离、或曼哈顿距离。
在一实施例中,所述基于所述候选集中子网络的参数的变化程度,确 定神经网络模型,包括:第一步骤,将候选集中参数的变化程度最大的多 个子网络和/或候选集中参数的变化程度大于变化阈值的多个子网络,确定 为多个候选网络;第二步骤,基于所述多个候选网络,生成一个或多个衍 生网络;第三步骤,将全部所述候选网络和全部所述衍生网络,形成新的 候选集,并作为新的候选集中的子网络;重复执行所述第一步骤、所述第 二步骤和所述第三步骤至预设次数;根据形成的全部候选集中参数的变化 程度最大的子网络作为所述神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京迈格威科技有限公司,未经北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011593032.9/2.html,转载请声明来源钻瓜专利网。