[发明专利]基于空间自注意力机制的目标检测方法有效
申请号: | 202010002235.X | 申请日: | 2020-01-02 |
公开(公告)号: | CN111222562B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 张伶俐;陈可佳;周晓萌 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06F17/16 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 空间 注意力 机制 目标 检测 方法 | ||
本发明提供了一种空间自注意力机制及目标检测方法,对特征图F进行自适应平均池化得到特征图F′;对特征图F′进行两次降维映射,得到f(F′)与g(F′)并按行展开,得到矩阵M和矩阵N;将矩阵M和矩阵N进行相乘,得到矩阵Z;对矩阵Z通过行卷积得到特征图Y;再使用sigmoid激活并进行拓展,得到特征图Q;对特征图Q进行反自适应平均池化,得到最终空间每个像素的权重,将所述权重与特征图F进行点乘,以获得最终特征图R作为下一个卷积层的输入。本发明基于空间自注意力机制,能够更好地提高目标检测方法的精度,本发明简单高效,且计算量较低,可应用到任意卷积网络的前向过程中,为特征图提供全局信息指导,提高卷积网络的表达能力。
技术领域
本发明涉及一种基于空间自注意力机制的目标检测方法,属于计算机视觉领域。
背景技术
目标检测是计算机视觉任务中最基础,同时也是最具有挑战性的任务。它旨在对图像中的目标进行定位与分类。近年来,随着深度学习技术的迅猛发展,目标检测的技术的效果得到了很大的提高。基于深度学习的目标检测技术主要分为三个步骤:首先,采用卷积网络对目标提取特征;随着卷积网络深度的加深,网络表征能力越强,但同时小目标与位置信息损失越大。然后,采用不同大小比率的滑动窗口对整幅图像进行遍历;一方面,尽管滑窗能够遍历整幅图像,但仍不能保证特殊形状的存在不会影响最终检测效果;另一方面,滑窗遍历整幅图像导致计算量增加以及正负样本的不平衡,影响检测效果。最后,对所提取的特征进行分类并使包围框回归,同时对预测出来的结果进行非极大值抑制操作,以得到最终结果。
近年来,通过注意力机制来增强网络的表征能力的方法层出不穷。SENet提出了基于通道间的注意力机制,通过两个全连接层计算通道间的重要程度,再对原特征图进行加权求值。CBAM将基于通道间的注意力机制与基于空间中的注意力机制进行融合,使用最大池化与平均池化对特征图进行压缩,再使用1*1卷积得到每个通道的重要程度,最后对原特征图进行加权求值。这些注意力机制只考虑了特征图中的一阶池化作用,没有考虑全局信息对该位置影响。所以在确定该位置重要程度时,需要添加全局信息的指导,以使得目标检测的精确度提高。专利CN201910738932.9公开了一种基于自注意力机制的多尺度空间自注意力机制及目标检测方法,其中所涉及到的空间注意力模块只是对特征图进行降维压缩,没有考虑到其他像素点对该像素点的位置影响程度,即丢失了全局信息的指导。
有鉴于此,确有必要提出一种基于空间自注意力机制的目标检测方法,以解决上述问题。
发明内容
本发明的目的在于提供一种基于空间自注意力机制的目标检测方法,更好地提高网络检测的精度,提高卷积网络的表达能力。
为实现上述目的,本发明提供了一种空间自注意力机制,主要包括以下步骤:
步骤1、对特征图F∈RC×H×W进行自适应平均池化得到特征图F';
步骤2、对特征图F'分别进行两次降维映射,得到f(F')与g(F'),将f(F')与g(F')按行展开,得到矩阵M和矩阵N;
步骤3、将矩阵M和矩阵N进行相乘,得到矩阵Z=MT×N;
步骤4、对矩阵Z通过行卷积得到特征图Y;
步骤5、对特征图Y使用sigmoid激活并进行拓展,得到特征图Q;
步骤6、对特征图Q进行反自适应平均池化,得到最终空间每个像素的权重,将所述权重与特征图F进行点乘,以获得最终特征图R;
步骤7、将最终特征图R作为下一个卷积层的输入。
可选的,步骤1中,特征图F'=AdaptiveAvgPool2d(F),此时F'的大小为C×H'×W'。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010002235.X/2.html,转载请声明来源钻瓜专利网。