[发明专利]一种基于深度学习的边海防目标检测方法有效
申请号: | 201810159198.6 | 申请日: | 2018-02-26 |
公开(公告)号: | CN108427920B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 刘俊;汪志强;李亚辉;王立林 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 浙江永鼎律师事务所 33233 | 代理人: | 雷仕荣 |
地址: | 310018*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 海防 目标 检测 方法 | ||
1.一种基于深度学习的边海防目标检测方法,其特征在于,包括以下步骤:
步骤(1):重新设计分类网络模型,并用公开的Imagenet数据集重新训练;
步骤(2):重新构建目标检测网络模型,在基于候选区域的卷积神经网络快速检测网络的算法基础上,对共享特征层、特有卷积层进行了改进和优化,用可变形卷积来替换特征提取结构中的特有卷积层,利用步骤(1)中得到的分类网络模型作为检测网络特征提取结构中的共享卷积层结构,利用步骤(1)中得到的分类网络模型作为检测网络特征提取结构中的共享卷积层结构的初始化参数进行训练,使用自建的行人车辆数据集进行训练,从而得到目标检测网络模型;
步骤(3):选择待检测的图像或者视频,用训练好的目标检测模型进行处理;
步骤(4):利用步骤(3)得到的目标检测模型,构建深度学习目标检测平台,其中包括对检测结果的可视化和存储;
其中,步骤(1)重新设计分类网络结构,并用公开数据集进行重新训练的步骤为:
步骤(1-1),重新设计分类网络模型,具体包括以下步骤:
步骤(1-1-1),标准卷积的输出特征图计算公式如下:
其中,F表示一个维度为DF×DF×M的特征图,特征图有多个通道,每个通道用一个二维的特征向量表示,DF表示输入特征图的宽度,M表示输入特征图的通道数,DG表示输出特征图的宽度,N是输出特征图的深度,同时也表示卷积核的种类;K表示卷积核参数矩阵,它的维度大小为DK×DK×M×N;使用Inception-Bn结构扩展标准卷积模块获得扩展后的卷积模块,从输入特征图中提取不同的特征,然后将这些得到的特征进行重新组合生成一个新的特征表示;用2个3×3卷积取代扩展后的卷积模块的5×5卷积,使用深度可分离卷积替代3×3卷积,通过深度可分离卷积将原有的3×3卷积方式分解成深度卷积和1×1卷积两步计算的方式,获得最后的卷积模块,基于获得的最后的卷积模块得到输出特征图1;
步骤(1-1-2),通过SE模块对输出的特征图1的通道进行重新校准;其主要操作如下:
(1):压缩操作Fsq,具体为对一个输出通道数为C的特征图Uc,对其中每个二维的特征图通道进行全局池化的操作,得到一组用实数表示的通道描述符向量Z,公式如下:
其中,W×H表示Uc的空间分辨率;
(2):增强操作Fex,采用sigmoid来将第一步中获得的一维向量的实数归一化到0~1之间,计算过程如下:
sc=Fex(zc,W)=σ(g(zc,W))=σ(W2δ(W1zc))
其中,zc表示由Fsq操作生成的实数表示,σ表示sigmoid函数,δ代表ReLU激活函数,W1和W2表示两个全连接层的矩阵权重;
(3):缩放操作Fscale,具体计算过程为:
xc=Fscale((uc,sc))=uc×sc其中,uc代表第c个通道的特征图,sc表示第c个通道对应的SE模块输出值;Xc=[x1,x2,...xc]表示缩放之后的相应的通道特征图的联合;
步骤(1-2),对Imagenet数据集进行基于先验知识的筛选,并进行编码处理,具体的方式如下:
步骤(1-2-1),根据背景和应用需求对指定类别编号;
步骤(1-2-2),根据指定类别对应的文件夹编号将不需要的类别图像从ImageNet训练集和ImageNet验证集中移除,留下需要的图像数据,每个文件夹编号代表一类物体;
步骤(1-2-3),读取原有的训练集标签文件train.txt和验证集标签文件val.txt,将其中不需要的类别的标签信息从中删除,留下指定的类别并对每一类的文件夹进行编号,从而生成新的train.txt和val.txt文件;
步骤(1-2-4),利用深度学习框架mxnet提供的转换工具对图像文件读取并重新编码,从而转换为指定格式的数据库文件;
步骤(1-3),利用设计好的分类网络模型和筛选后的imagenet图像分类数据集,训练改进之后的分类网络模型Inception-Bn-Dw-SE网络模型,具体步骤为:
步骤(1-3-1),参数初始化,对网络中的权重使用均值为0,方差为1的高斯分布进行初始化;
步骤(1-3-2),图像预处理:从数据库文件的ImageNet训练集中选择无重复的一个批次的图像样本,随机裁剪并进行减均值的操作,将最终得到的矩阵数据送入到分类网络模型Inception-Bn-Dw-SE网络模型中进行训练;
步骤(1-3-3),前向传播:将预处理之后的图像样本数据送入分类网络模型Inception-Bn-Dw-SE网络模型中进行并行的前向传播,即将上面得到的矩阵数据输入到分类网络模型Inception-Bn-Dw-SE网络模型中进行深度可分离卷积、压缩增强操作、池化、全局池化操作传播到最终的SoftMax层,计算得到最终的分类结果,并与样本对应的真实标签值进行比较,利用网络代价函数得到误差值;
步骤(1-3-4),反向传播:得到这个批次训练结果的误差之后,将误差值通过梯度的形式反向传播到分类网络模型Inception-Bn-Dw-SE网络模型中所有含有训练参数的层中,并利用这个梯度来更新网络中可训练的参数;
步骤(1-3-5),前向传播和反向传播交替迭代作用,直到分类网络模型Inception-Bn-Dw-SE网络模型完全收敛或者达到预设的迭代次数,得到最终的训练模型;
所述步骤(2)进一步包括如下步骤:
步骤(2-1):重新设计目标检测网络模型:
步骤(2-1-1),用可变形卷积来替换特征提取结构中的特有卷积层,对于可变形卷积的输出特征图y上的每一个点p0,可通过如下公式计算出该点的输出值y(p0):
其中,R={(-1,-1),(-1,0),…,(0,1),(1,1)}表示卷积操作中输入特征图上规则的感受野网格,{Δpn|n=1,…,Nr}表示p0点处对应的偏移量,其中Nr=|R|;相应的偏移后的位置为pn+Δpn,采用双线性插值的方式来求出相应点的像素值;
步骤(2-1-2),利用共享卷积层的输出特征图通过候选区域生成网络生成一定数量的感兴趣区域,同时对特有卷积层进行卷积操作来生成一个a2(D+1)通道的特征图和一个同级的具有4a2个通道的特征图,这里的a是可设定的参数,D表示需要检测的物体总的类别数;
步骤(2-1-3),对于每个感兴趣区域,将其映射到a2(D+1)通道的特征图上,然后通过全局池化的方式生成一个D+1维度的向量BD+1来表示这个感兴趣区域属于D个类别和背景的得分值,然后用Softmax响应:计算交叉熵,并用求得的结果来表示这个区域属于对应类别的置信度;
步骤(2-1-4),为了得到准确的检测框坐标,使用一个同级的具有4a2个通道的卷积层来进行边框回归,对a×a大小的矩阵求和,最终可以计算出一个1×4的向量t=(xs,ys,xe,ye),其中(xs,ys)表示检测框起点坐标,(xe,ye)表示检测框终点坐标;
步骤(2-2):使用网络摄像头采集视频,并用开源软件ffmpeg进行编解码处理,得到一系列的图像帧文件并进行人工筛选,然后使用lableImg工具进行打标签的操作,并将标签信息保存为xml文件,建立行人车辆的检测数据集;
步骤(2-3):利用最终设计的检测网络和自建的行人车辆检测数据集,进行检测网络模型的训练,训练时加载步骤(1)中得到的分类网络进行参数初始化,检测网络其他部分的参数进行高斯初始化,然后对检测网络端到端的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810159198.6/1.html,转载请声明来源钻瓜专利网。