[发明专利]注意力机制与深度学习相结合的红外行人检测方法、系统在审
申请号: | 202211387759.0 | 申请日: | 2022-11-07 |
公开(公告)号: | CN115661866A | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 陈旭东;姚坤;王嘉怡;许文明;王兰兰;于浩天 | 申请(专利权)人: | 河海大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V20/70;G06V10/82;G06V10/764;G06V10/762;G06V10/40 |
代理公司: | 南京千语知识产权代理事务所(普通合伙) 32394 | 代理人: | 祁文彦 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 注意力 机制 深度 学习 相结合 红外 行人 检测 方法 系统 | ||
1.一种红外行人检测方法,其特征在于,包括:
构建图像数据集;
基于图像数据集提取先验框;
构造深度卷积神经网络;其中
所述深度卷积神经网络包括:
主干部分,用于提取图像数据集的特征;
脖颈部分,适于提取和融合有效特征;以及
检测头部分,用于判断检测目标出现在先验框中的概率。
2.根据权利要求1所述的红外行人检测方法,其特征在于,
所述脖颈部分包括SE block结构和特征金字塔网络结构;其中
所述SE block结构包括:压缩操作、激励扩大操作;
所述压缩操作通过全局平均池化将二维的特征转换为代表全局的实数特征;
所述压缩操作表示为:
式(1)中,是压缩操作的数学表达式,是主干网络传来的第k个二维特征层,h、w分别是二维特征层的高和宽;
所述激励扩大操作通过全连接层和Sigmoid层得出特征的权重系数,再将得到的权重系数加权至主干网络传来的特征层中,以提取有效特征;
所述激励扩大操作分为激励操作和扩大操作,所述激励操作表示为:
式(2)中,是激励操作的数学表达式,是全连接层的操作函数,是Sigmoid层的操作函数,是经过压缩操作后传来的特征层;
所述扩大操作表示为:
式(3)中,是扩大操作的数学表达式,是主干网络传来的特征层,是经过激励操作后传来的特征层;
所述特征金字塔网络结构对每个融合层进行独立的预测并将从深层网络提取的特征与从浅层网络中提取的特征相结合。
3.根据权利要求1所述的红外行人检测方法,其特征在于,
所述检测头部分包括3×3和1×1卷积模块,以通过在网络中分类和回归从而判断检测目标出现在先验框中的概率。
4.根据权利要求1所述的红外行人检测方法,其特征在于,
所述主干部分包括以第26层、43层、52层三个有效特征层为基础构建的残差卷积网络;所述残差卷积网络的残差卷积包括前残差部分和残差部分,其中残差部分由1×1和3×3卷积模块组成;
所述卷积模块由卷积层、BN层和LeakyReLU组合形成;
所述BN层对图像数据集的特征进行规范化,用于防止中间层的数据突然变化;
所述LeakyReLU层用于优化各层间的梯度,其函数表达式可以表示为:
式(4)中,ki是负x轴上直线斜率的倒数。
5.根据权利要求1所述的红外行人检测方法,其特征在于,
所述构建图像数据集包括:
采集图像;
处理数据集,即将采集到的图像作为数据集并进行数据增强操作;
分类数据集,即将数据集类别划分为训练集、验证集和测试集;以及
标注数据,即对数据集中的图像进行标注。
6.根据权利要求5所述的红外行人检测方法,其特征在于,
所述采集图像包括:使用红外相机对包含检测目标的多场景图片进行拍摄;
所述处理数据集包括:通过放缩操作、旋转操作,再将图像转换格式,以进行正态分布标准化,实现数据集的扩充增强;
所述标注数据包括:设置标注格式和标注类型;将包含检测目标的像素区域进行框选,得到检测目标的标注信息;其中所述标注信息包括检测目标所处的位置、检测目标的大小;
所述训练集、验证集和测试集中的图像数量按照8:1:1的比例随机划分;
所述放缩操作的数学表达式为:
所述旋转操作的数学表达式为:
式(5)、式(6)中,(x,y)为变换前的坐标,(x1,y1)为放缩后对应的坐标,k为放缩比例,(xcenter,ycenter)为图像的中心点坐标,(x2,y2)为旋转后的对应坐标,θ为旋转角度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211387759.0/1.html,转载请声明来源钻瓜专利网。