[发明专利]一种基于自注意力机制的通用图像目标检测方法和装置有效
申请号: | 202111477045.4 | 申请日: | 2021-12-06 |
公开(公告)号: | CN113902926B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 李特;王世杰;朱世强;顾建军;王兴刚 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 贾玉霞 |
地址: | 310023 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 通用 图像 目标 检测 方法 装置 | ||
本发明公开一种基于自注意力机制的通用图像目标检测方法,该方法是基于DETR模型的改进,其包括对将含边界框标注的训练集图像输入图像特征提取网络,获得图像特征;将图像特征依次通过多头十字交叉注意力模块和多方向交叉注意力模块,获得解码器输出增强目标查询向量;将增强目标查询向量分别通过模型的分类层和回归层得到目标图像物体边界框和物体类别概率;计算网络整体损失对模型进行训练,得到目标检测模型;利用上述模型对待检测图像进行目标检测。本发明相比于DETR模型,在保证目标检测准确的同时,加快模型训练速度,减小模型的计算复杂度,提高模型灵活性与实用性。
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于自注意力机制的通用图像目标检测方法和装置。
背景技术
在计算机视觉领域,目标检测是一项基本任务,其目的是将图像中待检测对象与背景区分开,并预测图像中待检测对象的位置和类别。现有的流行技术基于卷积神经网络。基于该技术目标检测算法可以分为两大类:一类是one-stage算法。其思路是直接产生待检测物体类别概率和坐标位置,不需要产生候选框。另一类算法是two-stage算法。其思路是将检测问题划分为两个部分:首先产生候选区域,然后基于候选区域进行分类和边框回归,得到待检测物体类别概率和坐标位置。
Transformer架构最初应用于自然语言处理领域。其关键的自注意力机制(Self-attention mechanism)使得Transformer架构在不同任务上取得了不错的效果。2020年,Facebook提出DETR模型首次将Transformer架构应用于目标检测领域。它针对基于卷积神经网络的目标检测模型需要不同人工设计步骤的问题。以更加直接的方法简化整个目标检测流程,实现真正地端到端解决目标检测问题。
然而,DETR模型也有其自身地问题:第一:模型收敛速度慢,训练时间长;第二:模型计算量大,这使得DETR模型现阶段难以用于实际应用。
发明内容
针对现有技术的不足,本发明基于Transformer架构,提供了一种基于自注意力机制的通用图像目标检测方法和装置。该方法基于Transformer架构得到图像目标检测模型,收敛速度更快,训练时间更短,计算量更少。
本发明的目的通过如下的技术方案来实现:
一种基于自注意力机制的通用图像目标检测方法,该方法包括如下步骤:
步骤一:将含边界框标注的训练集图像输入图像特征提取网络,获得维度为C×H×W的图像特征;
步骤二:将所述图像特征,输入由L个十字交叉注意力层串联而成的多头十字交叉注意力模块,获得编码器输出特征图;
其中,所述十字交叉注意力层首先通过该层输入的图像特征获得该层多组编码器归一化后的注意力权重A和对应的编码器值向量V;然后通过A和V求出该层初步增强特征图f´;接着,将所述f´替换该层输入的图像特征,再次经过上述步骤,得到中间结果增强特征图;最后将中间结果增强特征图与输入的图像特征对应元素相加,经过该层编码器前馈网络和该层编码器层归一化后,得到该多头十字交叉注意力层输出的增强特征;
步骤三:将所述编码器输出特征图,通过由L个多方向交叉注意力层串联而成的多方向交叉注意力模块,获得解码器输出增强目标查询向量;
所述多方向交叉注意力层首先通过编码器输出特征图获得该层多组解码器归一化后的注意力权重Â和对应的解码器值向量,然后通过所述Â和求出该层融合后的增强目标查询特征q´;最后,改变所述q´维度为N×(M×C),依次经过该层解码器前馈网络和该层解码器层归一化后,得到该层多方向交叉注意力层输出的目标查询向量;
步骤四:将所述解码器输出增强目标查询向量分别通过分类层和回归层得到训练集图像的预测边界框类别概率和位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111477045.4/2.html,转载请声明来源钻瓜专利网。