[发明专利]一种基于深度学习的车载视频目标检测方法有效
申请号: | 201910185300.4 | 申请日: | 2019-03-12 |
公开(公告)号: | CN109977812B | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 张登银;金天宇;丁飞;赵莎莎;刘锦;薛睿;聂涵;王雪纯 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06V20/56 | 分类号: | G06V20/56;G06V20/40;G06V10/44;G06V10/774;G06V10/764 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 车载 视频 目标 检测 方法 | ||
1.一种基于深度学习的车载视频目标检测方法,其特征是,包括如下步骤:
步骤1)将深度坐标下的像素对齐到彩色坐标下;再将深度图像和彩色图像各自通过CNN进行特征提取,并将各自卷积层输出的特征图在通道维度上进行串联融合得到最终的RGB-D特征作为卷积后的卷积特征映射;
构建区域建议网络RPN,所述区域建议网络RPN包括一个3×3的卷积层和两个1×1的并行卷积层;将融合后的卷积特征映射输入3×3的卷积层,在输入的特征映射上以像素为单位滑动预设大小的网络,则每个滑动位置产生特定尺度的锚点;
将产生的锚点输入两个1×1的并行卷积层进行位置回归和前后景判断,分别输出锚点的前后景置信度和所有候选框位置并按照预设条件从所得的矩形后选框中筛选满足特定条件的预设数量的区域,得到最终的区域建议集合C;
步骤2)构建Fast R-CNN模型:
所述Fast R-CNN模型由两个ROI池化层、一个全连接层和两个并联的全连接层组成,分别输出该区域的置信度以及边框回归之后的候选框位置;将融合后的卷积特征输入FastR-CNN模型,输出图像中目标的位置及其类别和置信度;
步骤3):构建训练RPN网络的代价函数和训练Fast R-CNN网络的代价函数;
步骤4)使用标准的ZF模型训练和微调网络的各项参数,通过从设定的标准方差的零均值高斯分布中提取权重来随机初始化所有新层;
步骤5)利用反向传播算法和随机梯度下降算法,采用对RPN和Fast R-CNN两个网络交替训练的方式对模型进行训练,根据预先设置的参数依次调整每层神经网络的权值;
步骤6)使用预先获得的训练集测试初步训练好的Faster R-CNN模型,根据难样本的判别公式筛选出难样本;
步骤7)将步骤6)中产生的难样本加入训练集中,对网络再次进行训练,重复步骤5)-步骤7),得到最优的Faster R-CNN模型;
步骤8)对实际中采集的车载视频图像进行处理,输入训练好的Faster R-CNN模型中,输出该图像中目标类别、置信度以及目标位置;
所述难样本判别公式如下:
L(o,p)=LIoU(o)+Lscore(p),
Lscore(p)=(1-p),
其中,LIoU为边框误差;Lscore为分类误差;o为样本与目标的相交率;k为对阈值的敏感系数;o和p的取值范围均为0~1。
2.根据权利要求1所述的一种基于深度学习的车载视频目标检测方法,其特征是,RGB-D特征作为RPN和Fast R-CNN共享的卷积特征映射,其矩阵形式为:
其中,i,j,K为中间变量,i~[0,h-1],j~[0,w-1],K~[0,2c-1],h为特征图的高,w为特征图的宽,c为RGB三个通道;YRGB(i,j,K)是通道串联后的图像特征;Ydepth(i,j,K-c)是彩色图像特征;
Ymerge(i,j,K)是深度图像特征。
3.根据权利要求1所述的一种基于深度学习的车载视频目标检测方法,其特征是,所述训练RPN网络的代价函数为:
其中,将与标定过的真实数据的交并比最大或不低于0.7的锚点标为正样本,Pi为预测置信度;Pi*为标注值,取1时表示正样本,取0时表示负样本;i表示锚点的索引;Ncls为锚点总数量;Nreg为正样本的数量;ti为预测的锚点边界框修正值;为实际的锚点边界框修正值;Lcls为分类代价;Lreg为边框回归代价;λ为平衡权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910185300.4/1.html,转载请声明来源钻瓜专利网。