[发明专利]基于全注意力网络结构搜索的图像分类算法在审
申请号: | 202210660061.5 | 申请日: | 2022-06-13 |
公开(公告)号: | CN115100459A | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 周圆;王海洋;霍树伟 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/40;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 琪琛 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 网络 结构 搜索 图像 分类 算法 | ||
1.一种基于全注意力网络结构搜索的图像分类算法,其特征在于,包括以下步骤:
设计一个阶段性搜索空间,在该空间中,网络的每个阶段选择不同的自注意力操作;
使用自监督搜索方法进行搜索,将图像输入到阶段性搜索空间的网络模型中,更新网络内部权重参数和结构参数,当自监督搜索阶段完成时,保留结构参数,并使用它们作为监督搜索阶段的初始值;
使用监督搜索方法进行搜索,将图像输入到阶段性搜索空间的网络模型中,更新网络内部权重参数和结构参数,根据结构参数得到最优的全注意力网络。
2.根据权利要求1所述基于全注意力网络结构搜索的图像分类算法,其特征在于,所述阶段性搜索空间的网络结构中,第一层是一个固定的局部自注意力操作,最后两层是平均池化层和分类层,其余中间部分由五个阶段构成,在第二个阶段和第四个阶段中存在一个固定的池化操作,将特征图的空间尺寸减半,通道数加倍;每个阶段有三个可搜索层,对于每个可搜索层,需要从很多个候选操作中选择出性能最优的操作;候选操作由7个自注意力操作组成,包括一个非局部自注意力操作和6个具有不同超参数的局部自注意力操作,局部自注意力操作的超参数包括空间范围和头部数量,其中空间范围选择3、5和7,头部数量选择4和8;综上所述,阶段性搜索空间包含15个可搜索层,每层从7个候选操作中进行选择,搜索空间包含了715个可能的结构。
3.根据权利要求1所述基于全注意力网络结构搜索的图像分类算法,其特征在于,在自监督搜索阶段,设计一种基于上下文自回归任务的自监督搜索算法;上下文自回归任务指的是,将输入图像的多个区域随机掩盖,训练网络预测缺失部分的内容信息。采用一种编码器-解码器结构去提取输入图像的特征,并对缺失的图像内容进行重建。然后,利用这个任务来搜索全注意力网络。
使用全注意力网络作为特征编码器对输入图像进行特征提取;该网络包含两类可学习的参数:自注意力操作的权重参数w和每个候选操作对应的结构参数a;将图像数据集划分为两个独立的集合,分别用DatasetA和DatasetB表示;使用DatasetA数据集优化权重参数,使用DatasetB优化结构参数;使用L1损失作为损失函数,其定义如下:
其中M为像素个数,pi为输入像素,yi为真实值;然后,采用可微分结构搜索方法交替优化权重参数w和结构参数a;以迭代的方式,在DatasetA数据集上通过梯度下降来优化权重参数,然后在DatasetB数据集上通过梯度下降来优化结构参数;当自监督搜索阶段完成时,存储结构参数,并使用它们作为监督搜索阶段的初始值。
4.根据权利要求1所述基于全注意力网络结构搜索的图像分类算法,其特征在于,在监督搜索阶段,使用可微分结构搜索方法在图像分类数据集上进行搜索;使用自监督搜索阶段获得的结构参数作为初始值,采用梯度下降法交替优化结构参数α和权重参数w;使用交叉熵损失作为损失函数,其定义为:
其中K为类别数,pk为属于第k类的预测概率,yk为类别标签;当监督搜索过程结束后,将结构参数排序,结构参数最大值对应的操作被选择出来,得到最终的体系结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210660061.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种焊接剪切机调整方法
- 下一篇:一种足尖舞蹈鞋