[发明专利]一种基于卷积神经网络的自动驾驶汽车前方物体检测方法在审
申请号: | 201910845919.3 | 申请日: | 2019-09-09 |
公开(公告)号: | CN110569792A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 高炳钊;范佳琦;李鑫 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 22201 长春吉大专利代理有限责任公司 | 代理人: | 崔斌 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 自动驾驶 车辆前方目标 图像 半监督学习 计算机视觉 摄像头拍摄 参数共享 层间连接 机制构建 目标物体 汽车前方 神经网络 图像处理 物体检测 层堆叠 传统的 计算量 卷积核 块结构 稀疏性 隐含层 有效地 仿造 准确率 池化 卷积 拟合 像素 知觉 学习 分类 检测 改进 | ||
1.一种基于卷积神经网络的自动驾驶汽车前方物体检测方法,其特征在于,该检测方法包括以下步骤:
步骤一、获取训练集样本和测试集样本并且对数据进行标记;
从公开数据集KITTI上收集某城市道路上拍摄到的图片,取其中的60%作为训练集样本和40%作为测试集样本,利用MATLAB图像处理与计算机视觉工具箱中的Image Labeler标注工具对图片中的汽车这一目标物进行标记,标记好的图片数据保存在.mat文件中;
步骤二、在MATLAB平台搭建改进的Faster RCNN卷积神经网络;
在MATLAB平台搭建Faster RCNN卷积神经网络模型,将传统的Faster RCNN卷积层、池化层堆叠的结构改为如下的块结构,改进后的特征提取部分的网络结构为:一个图片输入层和5个CBLP块结构,其中每个块结构包含一个卷积层、一个批量标准化层、一个激活函数层和一个池化层;上述块结构提取出输入特征图的R、G、B各个色彩分量的像素特征后,特征图继续输入到全连接层中将上述各层提取出来的特征整合到一起;改进后的网络结构在全连接层之后加入一个dropout层;最终输出的特征图继续输入到softmax分类器实现对特征图中的目标物进行分类,并最终输出带有检测框和准确率的检测图;
步骤三:设置每层网络中的具体参数;
该网络结构的具体参数包括:卷积层、池化层数量,激活函数,卷积核大小,卷积核滑动步长,每一层中卷积核数量,学习率数值,权重更新方法以及权重初始值;
步骤四、训练上述搭建好的卷积神经网络模型;
首先,将标记好的训练集图片输入到上述搭建好的卷积神经网络模型中,设置训练过程中的批次minibatch和训练轮数;其次,在MATLAB平台上编写代码,通过不断调整训练的轮数以及上述学习率、卷积核大小、卷积核数量参数的值,不断重复训练该网络,直到得到了一个鲁棒性较好的且训练好卷积核中的权重和各个超参数的带有CBLP块结构的FasterRCNN卷积神经网络模型;最后,保存该模型,以便于后续将测试集图片输入到该神经网络模型中进行目标物检测;
步骤五、利用训练好的网络对测试集图片进行检测;
将测试集中待检测的图片输入到上述训练完成的卷积神经网络模型中,输出带有检测框和检测置信度的检测图;
步骤六、计算测试集平均检测准确率并且绘制测试集Precision-Recall曲线;
将测试集图片生成的检测框与提前标记好的框进行比较,计算测试集所有检测图片的检测准确率,绘制Precision-Recall即查准率-查全率曲线,统计得到测试集平均检测准确率。
2.根据权利要求1所述一种基于卷积神经网络的自动驾驶汽车前方物体检测方法,其特征在于,所述步骤三中各层中基本参数的具体设置为:
(1)五个卷积层:各层中卷积核大小均为3*3,卷积核数量分别为第一层32个,第二层64个,第三层128个,第四层256个,第五层512个;卷积核每次滑动一个步长,且采用零补位方法即在原始图像数据的基础上加上一层零数据,使卷积层输出的特征图尺寸与输入时相同;
(2)五个激活函数层:均采用relu激活函数,与传统的sigmoid函数相比,relu激活函数避免了训练过程中由于权重梯度消失导致的损失函数陷入局部极小值的问题;输入的数据x经过relu激活函数后输出的表达式为:
f(x)=max(0,x);
(3)五个正则化层:均采用Batch Normalization方法,对每个卷积层输出的数据xi按如下方式进行处理,以提高网络的稳定性;
yi=γxi+β
其中,μ为输入数据的均值,σ2为数据的方差,γ为需要学习的数据的标准差,β为需要学习的数据的均值,m为数据总数,xi为每一个输入的数据,ε为一个常数小值常取1e-7,为经过归一化变换后的数据值,yi为经过正则化变换之后输出的数据值;
(4)五个池化层:其中卷积核大小均为2*2,滑动步长均为2;池化层的作用在于对输入的图像进行降采样处理同时减少网络中的参数量;池化层采用的方法为最大值池化,每经过一次池化层,图像尺寸缩减为原来的一半;
(5)卷积核中的权重值初始化方法为随机选取一组符合高斯分布的数据作为权重初始值,同时每次训练时都随机选取一个小批量minibatch的图像数量,所有图像共输入到网络中重复训练4个批次;
(6)权重更新方法为SGD+Momentum即SGDM方法,即在传统随机梯度下降法加急SGD的基础上加上权重更新速度对权重更新的影响,可以有效避免训练过程中当某一点权重梯度为零时,权重值无法更新陷入局部极小值的问题;当采用SGDM权重更新方法时,即加入了权重更新速度对权重更新的影响时,在梯度消失时速度值仍很大,因此可以越过loss局部极小值,找到损失函数真正的最小值;权重更新方法为:
ω′=ω-αvt+1
其中,vt为上一时刻权重更新速率,vt+1为下一时刻权重更新速率,为权重梯度,α为权重更新的步长即学习率,ρ为速率因子,取0.9,ω'为权重更新后的值,ω为之前的权重值;
(7)权重更新步长即学习率α初始值设置为1e-3,训练网络时保证学习率为一个定值1e-3,记录测试集平均检测准确率;若学习率过小,则损失函数loss收敛速度过慢,网络训练时间过长;若学习率过大,则损失函数收敛速度过快,会导致在loss最小值之前提前收敛,网络训练得不够;
(8)dropout层超参数设置:由于输入的图片数量有限易出现过拟合现象,因此在网络搭建时设置dropout以防止出现过拟合现象;设置一个神经元抑制因子为0.3,即在网络训练中使30%的神经元处于抑制状态时,测试集检测准确率达到最高值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910845919.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高速公路防撞预警方法
- 下一篇:一种无监督相似性判别学习的目标跟踪方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序