[发明专利]基于判别学习的细粒度图像分类方法有效

申请号：	201910485179.7	申请日：	2019-06-05
公开（公告）号：	CN110309858B	公开（公告）日：	2022-07-01
发明（设计）人：	王智慧;王世杰;李豪杰;唐涛;王宁	申请（专利权）人：	大连理工大学
主分类号：	G06V10/764	分类号：	G06V10/764;G06V10/766;G06V10/82;G06K9/62
代理公司：	大连理工大学专利中心 21200	代理人：	温福雪;侯明远
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于判别学习细粒度图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于判别学习的细粒度图像分类方法，其特征在于，

两个子网络：

(1)自回归定位子网络

自回归定位子网络学习自回归系数以调整判别patch的大小，使用三个patch生成器层来生成默认的patch；不同层的特征图具有不同的感受野；设计patch的比例尺寸、缩放步长和纵横比，以便不同的特征图对不同大小的判别区域负责；

在获得图像特征M_I及其相应的patch坐标向量V_c后，通过双层网络将图像特征输入到自回归函数；其中，自回归函数是有一个卷积操作和对齐操作；

第一层是卷积层：

M_SR＝f(M_I) (1)

其中，M_I∈R^W×H×C，其中W，H表示图像特征的宽度和高度，C是通道的数量；M_SR∈R^W×H×2K是自回归系数图，K是给定位置默认的patch的数量；

f是卷积运算：

f(M_I)＝g(W_I,R·M_I+b_R) (2)

其中，g是非线性函数，W_I,R∈R^a×a×C×2K是学习参数，其中a是卷积核的大小，b_R表示自回归定位子网络中卷积层的偏置；

第二层是对齐层：映射函数h用于将自回归系数与相关联的patch对齐；

V_SR＝h(W_p⊙M_SR) (3)

其中，W_p是映射权重，⊙表示权重矩阵和系数矩阵之间的乘法；通过映射，将矩阵表示M_SR∈R^W×H×2K转换为矢量表示V_SR∈R^2K；V_SR是2K维向量，对应于默认patch的宽度和高度的自回归系数，向量的长度等于patch总数的两倍；

使用提出的引导损失函数使网络关注判别区域的大小，然后让网络学习自回归系数；根据每个默认patch的自回归系数，调整每个候选patch：其中，是第i个默认patch的坐标，i的范围是从1到patch的数量；然后，将学习到的自回归系数和分别和对应的候选patch的宽度和高度相乘；自动调整默认patch的长宽比例来减少默认框中的无用信息；

(2)判别性的先验子网络

判别性的先验子网络用于引导网络搜索具有判别区域的patch；添加一个1×1×K的卷积层来学习判别概率图，来显示patch中的判别区域对最终分类结果的影响；

M_DP＝g(W_I,D·M_I+b_D) (4)

V_DP＝h(δ(W_DM_DP)) (5)

其中，W_I,D∈R^a×a×C×K是学习参数，a是卷积核的大小，b_D表示判别性的先验子网络中卷积层偏置，g是非线性函数，W_D表示对其层的权重，M_DP∈R^W×H×K是学习的判别概率图；

还通过映射函数h将矩阵表示M_DP∈R^W×H×K转换为矢量表示V_DP∈R^K；以这种方式，将辨别概率与对应的patch对齐；δ是Sigmoid激活函数，用于确保判别概率值介于0和1之间；

(3)结合自回归定位子网络和判别性的先验子网络

将自回归定位子网络和判别的先验子网络组合成一个统一的网络，为弱监督细粒度图像分类挑选出最具辨识力的patch；首先将判别先验概率和自回归比例系数分配给每个默认patch；每个patch都有其默认坐标(t_x,t_y,t_w,t_h)和判别概率t_s以及两个自回归比例系数(s_w,s_h)；因此，自回归框BBox表示如下：

BBox＝[t_x,t_y,t_w×s_w,t_h×s_h,t_s] (6)

网络与自回归定位网络SR和判别性先验网络DP一起运行，并选择具有大于阈值θ的判别概率的BBox；使用阈值，仅选择包含判别特征的少量patch，因此复杂性已显着降低；根据剩余BBox的坐标，从原始图像中裁剪出剩余的patch，并通过Resnet-50提取特征，以生成高质量的patch级判别特征；

(4)Loss函数的设计

完整的多任务损失表示如下：

其中代表细粒度分类损失；和分别代表引导损失函数和一致损失函数；损失之间的平衡由超参数α,β控制；在通过大量的实验验证，α＝β＝1分类效果最佳；

将所选择的判别区域表示为R＝{R₁，R₂，...，R_N}，并将相应的判别概率得分表示为S＝{S₁，S₂，...，S_N}；然后，引导损失和一致损失定义如下：

其中，X是原始图像，函数C是置信函数，反映了分类到正确类别的概率；

引导损失旨在学习自回归系数，当使用整个图像的全局特征使所选区域的预测概率值低于预测概率值时，网络将受到惩罚并通过反向传播进行权重调整；一致性损失约束判别概率尽可能接近分类概率，可促使网络选择最具判别性的区域。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910485179.7/1.html，转载请声明来源钻瓜专利网。