[发明专利]一种基于注意力掩模融合的全卷积目标检测方法有效
申请号: | 201910204836.6 | 申请日: | 2019-03-18 |
公开(公告)号: | CN111723829B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 何小海;董潇潇;吴晓红;卿粼波;滕奇志;吴小强;余艳梅 | 申请(专利权)人: | 四川大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06K9/62;G06N3/04;G06N3/08;G06V10/80;G06V10/774 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 融合 卷积 目标 检测 方法 | ||
1.一种基于注意力掩模融合的全卷积目标检测方法,其特征在于包括以下步骤:
(1)使用基准网络VGG16提取特征,经过6个步幅的卷积和下采样操作后,得到多尺度全卷积特征层,然后进行初步的二分类和包围框回归操作;
(2)构建注意力掩模模块Attention Mask Module(AMM);其中构建注意力掩模模块的具体方法如下:
使用卷积函数conv,激活函数relu和池化函数pool来构建基本网络;每个注意力掩模模块分为两个分支:掩模分支和主干分支,给定输入x,主干分支经过卷积后得到输出G(x),掩模分支经过卷积和反卷积操作得到相同尺寸的输出M(x);掩模分支中,首先经过两次conv,relu,pool操作,然后经过两次deconv操作得到特征图谱S(x),最后经过sigmoid函数得到输出的掩模:
主干分支中,经过两次conv函数得到主干输出,最后输出的注意力模型P(x),公式如下所示:
Pi,c(x)=(1+Mi,c(x))*Gi,c(x) (2)
式中,i代表神经元的空间位置,c代表神经元的通道位置;
(3)将AMM和特征金字塔结构结合起来,即将顶层特征同底层特征融合后,再辅之以注意力信息AMM,得到更加有效的特征P1,P2,P3,P4用于多分类和回归操作。
2.根据权利要求1所述的方法,其特征在于(1)中构建多尺度全卷积特征层,构建方法如下:
通过VGG16网络得到一系列的卷积层,激活层和池化层,将全连接层fc6和fc7转变为卷积层后在其后添加卷积层和激活层,使用VGG16中的conv4_3,conv5_3,fc7以及添加的conv6_2层作为多尺度全卷积特征层,并将其输入到二分类和回归网络中。
3.根据权利要求1所述的方法,其特征在于(3)中注意力掩模模块同特征金字塔结构的融合,融合方法如下:
输入的特征图谱为(H×W×C),其中H和W代表高和宽,C代表通道的个数;对于底部特征L1,首先经过3×3的卷积层进行特征降维,将维度从512降到256,对于检测特征P2,经过2×2的反卷积操作,在扩大特征图谱同时也进行了降维的操作,得到的输出为(40×40×256);然后将上述输出进行eltwise sum操作,得到融合后的特征图谱T1亦为(40×40×256);最后将注意力掩模模块同T1融合以增加注意力信息,经过relu层后得到的检测特征P1可应用于多分类和回归操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910204836.6/1.html,转载请声明来源钻瓜专利网。