[发明专利]基于判别学习的细粒度图像分类方法有效
申请号: | 201910485179.7 | 申请日: | 2019-06-05 |
公开(公告)号: | CN110309858B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 王智慧;王世杰;李豪杰;唐涛;王宁 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/766;G06V10/82;G06K9/62 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于计算机视觉技术领域,提供了一种基于判别学习的细粒度图像分类方法。提出了一种新的端到端自回归定位与判别性先验网络模型,该模型学习探索更准确的判别patch大小,并能够实时分类图像。具体而言,设计了一个多任务判别学习网络,包含一个自回归定位子网络和一个判别性的先验子网络,判别性的先验子网络具有引导损失函数和一致性损失函数来同时学习自回归系数和判别性的先验map。自回归系数可以减少判别性patch中的噪声信息,判别性先验map通过学习判别概率值将数千个候选patch过滤成个位数数量patch。大量实验表明,所提出的SDN模型在准确性和效率方面均达到了最新水平。 | ||
搜索关键词: | 基于 判别 学习 细粒度 图像 分类 方法 | ||
【主权项】:
1.一种基于判别学习的细粒度图像分类算法,其特征在于,两个子网络:(1)自回归定位子网络自回归定位子网络学习自回归系数以调整判别patch的大小,使用三个patch生成器层来生成默认的patch;不同层的特征图具有不同的感受野;设计patch的比例尺寸、缩放步长和纵横比,以便不同的特征图对不同大小的判别区域负责;在获得图像特征MI及其相应的patch坐标向量Vc后,通过双层网络将图像特征输入到自回归函数;其中,自回归函数是有一个卷积操作和对齐操作;第一层是卷积层:MSR=f(MI) (1)其中,MI∈RW×H×C,其中W,H表示图像特征的宽度和高度,C是通道的数量;MSR∈RW×H×2K是自回归系数图,K是给定位置默认的patch的数量;f是卷积运算:f(MI)=g(WI,R·MI+bR) (2)其中,g是非线性函数,WI,R∈Ra×a×C×2K是学习参数,其中a是卷积核的大小,bR表示自回归定位子网络中卷积层的偏置;第二层是对齐层:映射函数h用于将自回归系数与相关联的patch对齐;VSR=h(Wp⊙MSR) (3)其中,Wp是映射权重,⊙表示权重矩阵和系数矩阵之间的乘法;通过映射,将矩阵表示MSR∈RW×H×2K转换为矢量表示VSR∈R2K;VSR是2K维向量,对应于默认patch的宽度和高度的自回归系数,向量的长度等于补丁总数的两倍;使用提出的引导损失函数使网络关注判别区域的大小,然后让网络学习自回归系数;根据每个默认patch的自回归系数,调整每个候选patch:其中,是第i个默认patch的坐标,i的范围是从1到patch的数量;然后,将学习到的自回归系数和分别和对应的候选patch的宽度和高度相乘;通过这种方式,自动调整默认patch的长宽比例来减少默认框中的无用信息;(2)判别性的先验子网络判别性的先验子网络用于引导网络搜索具有判别区域的patch;添加一个1×1×K的卷积层来学习判别概率图,来显示patch中的判别区域对最终分类结果的影响;MDP=g(WI,D·MI+bD) (4)VDP=h(δ(WDMDP)) (5)其中,WI,D∈Ra×a×C×K是学习参数,a是卷积核的大小,bD表示判别性的先验子网络中卷积层偏置,g是非线性函数,WD表示对其层的权重,MDP∈RW×H×K是学习的判别概率图;还通过映射函数h将矩阵表示MDP∈RW×H×K转换为矢量表示VDP∈RK;以这种方式,将辨别概率与对应的patch对齐;δ是Sigmoid激活函数,用于确保判别概率值介于0和1之间;(3)结合自自回归定位子网络和判别性的先验子网络将自回归定位子网络和判别的先验子网络组合成一个统一的网络,为弱监督细粒度图像分类挑选出最具辨识力的patch;首先将判别先验概率和自回归比例系数分配给每个默认patch;公式表示:每个patch都有其默认坐标(tx,ty,tw,th)和判别概率ts以及两个自回归比例系数(sw,sh);因此,自回归框BBox表示如下:BBox=[tx,ty,tw×Sw,th×sh,ts] (6)网络与SR和DP一起运行,并选择具有大于阈值θ的判别概率的BBox;使用阈值,仅选择包含判别特征的少量patch,因此复杂性已显着降低;根据剩余BBox的坐标,从原始图像中裁剪出剩余的patch,并通过Resnet‑50提取特征,以生成高质量的patch级判别特征;(4)Loss函数的设计完整的多任务损失表示如下:其中代表细粒度分类损失;和分别代表引导损失函数和一致损失函数;损失之间的平衡由超参数α,β控制;在通过大量的实验验证,α=β=1分类效果最佳;将所选择的判别区域表示为R={R1,R2,...,RN},并将相应的判别概率得分表示为S={S1,S2,...,SN};然后,引导损失和一致损失定义如下:其中,X是原始图像,函数C是置信函数,反映了分类到正确类别的概率;引导损失旨在学习自回归系数,当使用整个图像的全局特征使所选区域的预测概率值低于预测概率值时,网络将受到惩罚并通过反向传播进行权重调整;一致性损失约束判别概率尽可能接近分类概率,可促使网络选择最具判别性的区域。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910485179.7/,转载请声明来源钻瓜专利网。