[发明专利]一种室内场景下基于改进卷积神经网络的视觉SLAM回环检测方法在审
申请号: | 202310442351.7 | 申请日: | 2023-04-23 |
公开(公告)号: | CN116503649A | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 徐晓苏;孟焱迪 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/40;G06V10/82;G06V10/774;G06V10/80;G06V10/74;G06V10/77;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 室内 场景 基于 改进 卷积 神经网络 视觉 slam 回环 检测 方法 | ||
1.一种室内场景下基于改进卷积神经网络的视觉SLAM回环检测方法,其特征在于,所述方法包括以下步骤:
S1:改进VGG-19(Visual Geometry Group-19)卷积神经网络模型,添加注意力机制模块使其适用于室内环境下的图像特征向量提取,从而获得预处理神经网络,将室内场景下捕获的训练集图像进行标准化处理后,输入至改进卷积神经网络结构的前向传播中对图像数据集进行特征提取,输出特征向量集合;
S2:将改进神经网络输出的多维特征向量输入随机森林模型进行训练,构建均分固定块模型对单一图像的特征向量块进行有放回重复采样,从而构建多个决策树,组成一个随机森林模型,输出训练集对应的重构建特征向量;
S3:针对测试集图像经S1改进卷积神经网络前向传播、以及S2随机森林投票机制输出获得的重构建特征向量,与训练集重构特征向量集合进行调整余弦相似度距离计算,度量值大于阈值时判定其形成回环,并输出构成的图像特征向量集。
2.根据权利要求1所述的室内场景下基于改进卷积神经网络的视觉SLAM回环检测方法,其特征在于,所述步骤S1具体包括以下过程:
S1.1获取室内场景下相机捕获的连贯图像集合,将其分为训练集和测试集,针对训练集图像进行预处理,
S1.2针对训练集的RGB三色通道图像进行双线性插值预处理,从而对图像实现缩放以满足VGG-19卷积神经网络输入层的像素尺寸要求,待计算点A处的像素值g(A)可以通过R1、R2点处像素值进行求取获得:
其中,分别指R1、R2点处像素值的对应权重,y1、y2分别对应R1、R2点处像素的待处理坐标系上的坐标值,g(R1)、g(R2)分别对应R1、R2点处的有效像素值。通过上式将采集图像集尺寸调整至224×224像素大小,
S1.3输入预处理过后的图像至构建的改进VGG-19卷积神经网络中,首先,通过卷积层Conv1至卷积层Conv5的前向传播,采用3×3的轻量级卷积核进行卷积操作,并输入至该层池化层中图像特征降维,定义第l层池化层的输出为pl,第l层卷积层的输出Fl,则池化层输出表示为:
pl=ReLU(Fl)=ReLU(al-1*Wl+bl)
其中,al-1表示第1帧输入图像的像素矩阵,*代表卷积操作,W是该层对应的卷积核,b代表偏置量,
ReLU(·)代表模型使用的非线性激活函数(Rectified Linear Unit),通过参数x描述其表达式为:
S1.4在Conv1至Conv5每个卷积层后分别添加卷积注意力机制模块CBAM(Convolutional Block Attention Module),进行注意力加权,CBAM模块包括了两个方面:空间(spatial)注意力模块和通道(channel)注意力模块,
首先将卷积后结果经过通道注意力模块CAM(ChannelAttention Module),定义平均池化操作为AvgPool(·),最大值池化操作为MaxPool(·),则CAM模块的输出表示为:
其中,MLP指对每个元素进行加和操作,⊙指元素间乘法操作。σ(·)指sigmoid激活操作,借助参数x描述其表达式为:
其次CAM模块的输出经过空间注意力模块SAM得到最终优化结果,其输出表示为:
其中,f7×7(·)指采用7×7的卷积核进行卷积操作,对经过最大池化层以及平均池化层的输出通道进行降维,
S1.5将输出向量经过最大池化层MaxPool降维处理,定义最大池化层的输出S为:
其中,α和β为标量参数,分别表示下采样系数与偏置量,表示对CBAM模块输出矩阵进行下采样,
S1.6将上述操作应用于改进卷积神经网络的前向传播,对隐藏层的分布式特征进行映射,采用卷积核进行全层卷积,得到全连接层的结果,提取全连接FC7层(Fully Connectedlayers-7)的输出:
通过全连接层获得了单一图像的输出结果一个4096维的图像特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310442351.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种山地茶树繁育方法
- 下一篇:防扰动装置、传输设备及图案生成系统