[发明专利]一种基于自注意力机制的通用图像目标检测方法和装置有效
申请号: | 202111477045.4 | 申请日: | 2021-12-06 |
公开(公告)号: | CN113902926B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 李特;王世杰;朱世强;顾建军;王兴刚 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 贾玉霞 |
地址: | 310023 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 通用 图像 目标 检测 方法 装置 | ||
1.一种基于自注意力机制的通用图像目标检测方法,其特征在于,该方法包括如下步骤:
步骤一:将含边界框标注的训练集图像输入图像特征提取网络,获得维度为C×H×W的图像特征;
步骤二:将所述图像特征,输入由L个十字交叉注意力层串联而成的多头十字交叉注意力模块,获得编码器输出特征图;
其中,所述十字交叉注意力层首先通过该层输入的图像特征获得该层多组编码器归一化后的注意力权重A和对应的编码器值向量V;然后通过A和V求出该层初步增强特征图f´;接着,将所述f´替换该层输入的图像特征,再次经过上述步骤,得到中间结果增强特征图;最后将中间结果增强特征图与输入的图像特征对应元素相加,经过该层编码器前馈网络和该层编码器层归一化后,得到该多头十字交叉注意力层输出的增强特征;
步骤三:将所述编码器输出特征图,通过由L个多方向交叉注意力层串联而成的多方向交叉注意力模块,获得解码器输出增强目标查询向量;
所述多方向交叉注意力层首先通过编码器输出特征图获得该层多组解码器归一化后的注意力权重Â和对应的解码器值向量,然后通过所述Â和求出该层融合后的增强目标查询特征q´;最后,改变所述q´维度为N×(M×C),依次经过该层解码器前馈网络和该层解码器层归一化后,得到该层多方向交叉注意力层输出的目标查询向量;
步骤四:将所述解码器输出增强目标查询向量分别通过分类层和回归层得到训练集图像的预测边界框类别概率和位置;
步骤五:将所述训练集图像的预测边界框类别概率和位置,与训练集图像的真实边界框类别和位置信息计算网络整体损失函数,通过反向传播方法对模型进行训练,得到目标检测模型;
步骤六:利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中待检测物体。
2.根据权利要求1所述的基于自注意力机制的通用图像目标检测方法,其特征在于,每个多头十字交叉注意力层的操作具体如下:
S2.1:对于第一层多头十字交叉注意力层,将所述图像特征按照第1个维度等分为M组维度为 (C/M)×H×W子图像特征;对于第i层多头十字交叉注意力层,1≤i≤L,i∈Z,将第i-1层多头十字交叉注意力层输出的维度为C×W×H的增强特征fi-1按照第1个维度等分为M组子图像特征,其中第i层输入的第m组子图像特征的维度为(C/M)×H×W ,1≤m≤M,m∈Z ;将第L层多头十字交叉注意力层输出的增强特征fL作为编码器输出特征图;
S2.2:将所述分别经过第i层第m组1×1编码器查询向量卷积和第i层第m组1×1编码器匹配键值卷积,分别得到第i层第m组编码器查询向量、第i层第m组的编码器匹配键值;所述,维度为(C/M)×H×W;
S2.3:采用下式计算第i层第m组第u个位置编码器未归一化注意力权重:
其中,表示的第u个位置向量,其维度为1×(C/M);表示第u个位置同行同列向量,其维度为(W+H-1)×(C/M);u表示在分辨率维度上的一个位置,{u∈(x,y)|x,y∈Z,1≤x≤W,1≤y≤H};
将所有位置拼接成为第i层第m组编码器未归一化注意力权重,其维度为(W+H-1)×W×H;
将每一元素除以后,在第1个维度上进行softmax操作,得到第i层第m组编码器归一化后的注意力权重;
S2.4:将所述经过第i层第m组1×1编码器值向量卷积,得到第i层第m组的编码器值向量,其维度为(C/M) ×H×W;
S2.5:根据下式计算第i层第m组第u个位置初步增强特征图:
其中,表示第u个位置向量,其维度为(W+H-1)×1;表示所述第u个位置同行同列向量,其维度为(W+H-1)×(C/M);
将所有位置拼接后经过第i层1×1编码器融合卷积Wi,从而得到第i层初步增强特征图,其维度为C×H×W;
S2.6:将所述替换步骤S2.1中的fi-1,在所有卷积参数权值共享下,重复S2.1~S2.5后,将其输出的第i层第m组中间结果增强特征图的对应元素加上,最终获得第i层第m组再次增强特征图;
S2.7:将所述在第1个维度拼接,经过第i层编码器前馈网络和第i层编码器层归一化,得到第i层多头十字交叉注意力层输出的增强特征f i。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111477045.4/1.html,转载请声明来源钻瓜专利网。