[发明专利]一种基于多视角双注意网络的三维物体识别方法有效
申请号: | 202110120015.1 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112784782B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 蔡宇;王文举;王涛 | 申请(专利权)人: | 上海理工大学 |
主分类号: | G06V20/64 | 分类号: | G06V20/64;G06V10/46;G06V10/77;G06V10/764;G06V10/82;G06N3/0464;G06N3/047;G06N3/048;G06N3/08 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 郁旦蓉 |
地址: | 200093 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视角 注意 网络 三维 物体 识别 方法 | ||
1.一种基于多视角双注意网络的三维物体识别方法,其特征在于,包括以下步骤:
步骤1,将原始三维物体从n个视角投影到二维平面渲染得到n个视图,将n个所述视图分别经过基础CNN模型进行特征提取对应得到n个视觉特征;
步骤2,将n个所述视觉特征输入视图空间注意力模块进行处理后得到视觉空间描述符;
步骤3,将n个所述视觉特征输入视图通道注意力模块进行处理后得到视觉通道描述符;
步骤4,将所述视觉空间描述符和所述视觉通道描述符进行联合得到三维形状描述符,将该三维形状描述符输入到全连接网络中完成物体识别,得到所述原始三维物体的预测识别分类结果,
其中,采用ResNet网络作为所述基础CNN模型,移除原始ResNet最后一层全连接层,并连接视图空间注意力模块与视图通道注意力模块,
其中,所述步骤2中包括以下子步骤:
步骤2-1,将输入的所述视觉特征用第一总体特征进行表示,将所述第一总体特征馈入两个卷积层,分别生成两个新的特征映射Query和Key,如公式(1)、(2),
Query=Z(fs) (1)
Key=T(Z(fs)) (2)
公式(1)和公式(2)中,Z是卷积核大小为1*1的卷积层,T为转置操作,将其reshape为其中N=H1×W1为所述第一总体特征fs的空间大小,
在Query的转置和Key之间进行矩阵乘法,并应用一层softmax层来计算得到空间注意力矩阵S∈RN×N,softmax函数用于保证所述视图特征的权重总和为1,如公式(3),
公式(3)中,Sij为所述视图空间注意力模块得到的所述空间注意力矩阵,用于度量所述视图内ith位置对jth位置的相关性,权重越大越相似;
步骤2-2,将所述第一总体特征fs馈入另一分支,此分支为原始特征空间分支,该分支的特征与输入的所述视图特征具有相同的分辨率来保存原始特征信息,将所述第一总体特征fs经过卷积处理生成一个新的特征映射Value∈RC1×H1×W1,并将Value进行reshape为∈RC×N,然后将其与所述空间注意力矩阵S进行矩阵乘法,再与所述第一总体特征fs进行元素求和运算来保证经过所述视图空间注意力模块之后的特征所学习的信息丰富度不低于原始输入的所述视觉特征的信息丰富度,得到空间特征P,如公式(4),
公式(4)中,θ为尺度参数,该尺度参数θ自适应控制得到的空间注意力特征,初始化为0,并逐渐地学习分配到更大的权重;
步骤2-3,进行最大池化操作来聚集视图特征,将所述空间特征P汇集到一个全局描述符中得到所述空间形状描述符Vs,如公式(5),
VS=MAX(P) (5)
公式(5)中,MAX为最大池化操作;
其中,所述步骤3包括以下子步骤:
步骤3-1,将输入的n个所述视角下的所述视觉特征用第二总体特征fc进行表示,令C2=n,将所述第二总体特征fc转化为n×H2×W2大小,再将空间大小为H2×W2大小的所述第二总体特征fc通过全局空间信息收缩得到一个R∈Rn的所述通道向量,如公式(6),
该通道向量R的大小为n×1×1,即具有n个视图通道,每个所述视图通道的信息均用该视图通道的全局平均池化值进行表示;
步骤3-2,对所述通道向量采用两层全连接层和一层ReLu层的视图选取机制并应用sigmoid函数激活,计算得到的通道注意力向量Sc,如公式(7),
Sc=σ(W2δ(W1R)) (7)
所述两层全连接层分别为一个衰减比为r的降维层和一个升维层,其中r=n,即将所述视图通道的数量归一化,公式(7)中,W1和W2分别为所述降维层和所述升维层的参数,和δ为ReLu层的激活函数,σ为sigmoid函数,用于将输出映射为(0,1)区间得到所述通道注意力向量Sc;
步骤3-3,将大小为n×1×1的所述视图注意力权重向量Sc与n个所述视角的所述第二总体特征fc进行element-wise的点乘操作得到如公式(8),
公式(8)中,“·”为Hadamard Product,
再将加上所述第二总体特征fc得到经视图通道变换后的视图特征保证经过所述视图通道注意力模块之后的特征所学习的视图信息丰富度不低于原始输入的所述视觉特征的信息丰富度,如公式(9),
步骤3-4,对所述视图特征进行Conv操作将其组合汇集到一个全局描述符中得到通道形状描述符Vc,如公式(10),
公式(10)中,Conv为一层卷积核大小为1×n的卷积层,使用1×n卷积核相当于n视角的视角窗口,经过所述视角窗口的滑动融合n个视角的所述视图特征得到通道形状描述符Vc。
2.根据权利要求1所述的基于多视角双注意网络的三维物体识别方法,其特征在于:
其中,所述步骤1包括以下子步骤:
步骤1-1,对于所述原始三维物体M,将其从n个视角投影到二维平面渲染成n个所述视图,X→(x1,x2,…,xi,…,xn),其中,xi为第i个视图;
步骤1-2,n个所述视图经过所述基础CNN模型后得到n个不同视角下的所述视觉特征(f1,f2,…,fi,…,fn),其中,fi为第i个所述视图的所述视觉特征,fi∈RC×H×W。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海理工大学,未经上海理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110120015.1/1.html,转载请声明来源钻瓜专利网。