[发明专利]一种基于雷达视觉融合的车辆多属性识别方法在审
申请号: | 202110959048.5 | 申请日: | 2021-08-20 |
公开(公告)号: | CN113888754A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 李嘉锋;郜征;卓力;徐晗;李耀鹏 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/80;G06V10/25;G06T7/90;G08G1/017 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 雷达 视觉 融合 车辆 属性 识别 方法 | ||
1.一种基于雷达视觉融合的车辆多属性识别方法,其特征在于包括以下步骤:
步骤1:多属性标签集重新编码组合
将隧道车辆图像标签集中车型和车色属性标签重新进行二进制编码然后与车辆坐标,距离信息进行组合,得到二进制编码的车辆多属性组合标签集,用于车辆多属性识别网络的训练;
步骤2:雷达信息和视觉信息融合
步骤2.1:离线部分;利用构建好的隧道车辆数据集,获取到RGB图像中车辆的坐标、车辆与视觉摄像机之间的距离;通过算法拟合数据集中的上述信息,得到车辆感兴趣区域矩形框的边长与距离之间的关系式;
利用得到的矩形框信息关系式计算出车辆感兴趣区域的矩形框尺寸,将矩形框处理成单通道二值图像区域后,与当前RGB图像融合成3通道图像;
步骤2.2:在线部分;在线部分利用离线部分产生的矩形框信息,然后根据雷达产生的距离信息构建单通道二值图像,随后与当前帧图像融合成3通道图像;
步骤3:网络结构设计及训练
步骤3.1:车辆多属性识别网络结构设计
网络结构,包括:特征快速提取部分、特征精细化处理部分、注意力-多尺度特征融合输出部分,用以提升网络的定位和多属性分类精度,提高网络运行速度,并使用步骤2中构建的融合后的图像训练该网络,得到车辆多属性识别网络模型;
步骤3.2:车辆多属性识别网络的训练
将车辆定位、车型、车色三个任务放在同一网络下进行学习;
步骤4:检测、识别车辆多属性信息
识别阶段,首先由雷达获取运动车辆的信息包括车辆坐标和距离送入雷达信息与视觉信息融合在线部分,提取雷达信息映射在当前帧图像中车辆感兴趣区域,将其二值化处理后与当前帧图像融合成3通道图像,最后送入车辆多属性识别网络模型识别车辆的多种属性。
2.根据权利要求1所述的方法,其特征在于包括以下步骤:
步骤1:多属性标签集重新编码组合
首先将数据集中的车辆多属性信息包括车辆坐标、车辆距离、车色、车型进行编码、组合后,这些重新编排的样本信息组成了新的标签集,该标签集采用标准的VOC数据标注格式标注,用于后续车辆多属性识别网络的训练;
步骤2:雷达信息与视觉信息融合
步骤2.1:离线部分;首先,使用算法拟合数据集中雷达和视觉相机联合标注的车辆信息,找到车辆标注框宽w、高h与距离d之间的关系;
经过算法拟合后,得到宽w、高h和距离d的关系如下:
BW(d)=233×1.1×d-0.5 (1)
BH(d)=233×1.1×d-0.91 (2)
然后利用公式(1)和(2)生成车辆感兴趣区域,然后根据区域矩形框的信息生成单通道二值图像,然后将单通道二值图像与当前RGB图像融合成3通道图像;
步骤2.2:在线部分;在线部分仅利用离线部分产生的矩形框信息,提取雷达映射在当前帧图像中的车辆感兴趣区域信息,然后将该区域二值化处理生成单通道图像,最后与当前帧RGB图像融合成3通道图像;
步骤3:网络结构设计及训练
步骤3.1:车辆多属性识别网络结构设计
网络总共包括3个部分:特征快速提取部分、特征精细化部分、注意力-多尺度特征融合输出部分,网络结构输出为一组向量,包含车辆坐标,置信度,车辆型号,车辆类别;该网络结构相关细节描述如下:
在下面网络模块部分中分别使用了BN层、Mish激活函数、Linear激活函数、Leaky ReLU激活函数、Concat特征拼接方法,用以提高车辆多属性识别网络的检测识别性能;在网络模块中,CBM模块代表:Conv+BN+Leaky ReLU;CBL模块代表:Conv+BN+Leaky ReLU;
(1)特征快速提取部分;该部分结构包括1个7x7x64的CBM模块和2个快速提取(RapidExtractor)模块,快速提取模块如附图3所示;CBM模块包含1个卷积层,1个BN层,1个Mish激活函数;快速提取模块包含2个ResNeXt Block模块和4个CBM模块和1个BN+Leaky ReLU模块;
首先采用3x3卷积减低特征尺寸,然后采用两个1x1卷积将通道数缩减一半,其中一个1x1卷积计算后送入ResNeXt block进行计算,该做法用以减少计算瓶颈,随后与另一个进行特征通道上的拼接,构成大型的跳层连接模块用以增加CNN的学习能力,最后送入BN+Leaky ReLU模块+CBM模块归一化特征分布;
特征快速提取模块1中,输入的特征图尺寸为304x304x64,输出的特征图尺寸尺寸为152x152x128,其中通道数为64;特征快速提取模块2中,输入的特征图尺寸为152x152x128,输出的特征图尺寸为38x38x256,其中通道数为128;
(2)特征精细化部分;该部分由2个用于特征精细化的双流交叉模块、2个CBM模块组成;该模块由1个的CBL模块(Conv+BN+Leaky ReLU)和1个的CBM模块和双分支卷积组成,c为通道数每个分支由4个ResNeXt Block组成,最后将2个分支得到的特征图进行Concat操作送入1x1x2C的CBM模块;
在双流交叉连接模块1中,输入的特征图尺寸为38x38x256,输出的特征图尺寸为38x38x512,其中通道数为256;在双流交叉连接模块2中,输入的特征图尺寸为19x19x512,输出的特征图尺寸为19x19x1024,通道数为512;
(3)注意力-多尺度特征融合输出部分;该部分模块包括19×19、38×38、72×72尺度的特征图、与上述3个尺度特征图相连接的scSE注意力机制模块、3个结果模块;
增加了scSE注意力模块,经过scSE模块处理后,再利用FPN+PAN结构进行2次多尺度特征融合,,将不同尺度的特征分别送入3个结果模块;经过结果单元的计算后,输出车辆的多种属性信息,结果模块由3个3x3的CBM模块、2个1x1的CBM模块、1个1×1卷积层构成;
结果模块中最后一个1×1卷积层的输出通道包含的信息为最终预测结果,输出通道数计算方式如下:
(4+1+classes)*3 (3)
其中,4表示车辆的矩形框坐标、1表示置信度、classes表示车辆的多属性类别,3表示每个尺度特征图预测3个结果;
整体来看车辆多属性识别网络的输出形式,通过网络得到3种不同尺度的预测结果,每个尺度的预测结果都对应72个通道,其中包含预测的车辆属性信息;每个尺度预测3个结果,共有19*19*3+38*38*3+76*76*3个预测结果,每个预测结果对应24维通道,分别是4维的坐标预测结果、1维置信度预测结果、19维的车型、车色预测结果;
(4)损失函数;
损失函数由坐标回归损失+置信度损失+车辆多属性损失构成,如公式(4)所示;
L=Lcoordinates+Lconfidence+Lmulti-attribute (4)
其中坐标回归(x,y,w,h)损失使用CIOU损失函数计算,置信度和车辆多属性使用交叉熵损失函数;相关描述如下:
1)坐标损失函数;使用CIOU损失函数作为坐标损失函数,该函数考虑三个重要因素:重叠面积(IoU)、中心距离、长宽比;如公式(5)所示;
其中,重叠面积对应公式中IoU项;中心距离对应R项,R项中b,bgt(gt代表groundtruth)分别表示预测框(网络输出)和真实框的中心点,ρ2(*)表示欧拉距离,c表示预测框和真实框的最小外界矩形的对角线距离;长宽比对应公式中的αv项,v表示两框的长宽差距,用来衡量长宽比一致性,wgt、hgt为人工标注的车辆真实框的宽和长,w、h为网络输出的车辆预测框的宽和长;α项是调节系数,用于控制v项的惩罚力度,K*K表示网格的个数即结果单元输出的结果特征图的尺寸:19x19、38x38、76x76,每个网格生成B(结果单元输出通道数:72)个anchor,每个anchor经过网络会得到相应的bounding box,最终形成K*K*B个bounding box,为示性函数表示IOU大于阈值0.5的bounding box预测框的置信度才会计入误差;
2)置信度损失和车辆多属性损失;置信度损失采用交叉熵损失函数,分为两个部分,有车辆目标,无车辆目标;为示性函数,表示IOU低于阈值(0.5)的bounding box预测框的置信度才会计入误差;其中为了减少无车辆目标部分贡献权重,在无车辆目标部分增加了λnoobj(λnoobj取值为0.4),如公式(6)所示;
其中,Ci为预测值;为真实值;
由于车辆多属性标签内在的互斥性,所以对车型、车色分别设计了损失函数;采用sigmoid激活函数分别对网络输出的6维至10维、11维至24维进行激活,然后送入针对车型、车色的交叉熵损失函数,如公式(7)和(8)所示;Ltype和Lcolor分别代表车型和车色属性的损失:
其中c2表示车型种数,c3表示车色种数,为真实概率,pi为预测概率;
训练时车辆多属性损失Lmulti-attribute由上述两部分损失相加而得,如公式(9)所示:
Lmulti-attribute=Ltype+Lcolor (9)
步骤3.2:车辆多属性识别网络的训练
相关描述如下:
(1)数据增强;采用随机旋转0-15度,随机翻转,随机裁剪方法对输入图片进行数据增强处理;采用Dropblock正则化方法在网络中的每一个特征图上随机地删减一部分局部区域;
(2)anchor box的尺寸生成;使用K-means算法在整个训练集上对所有已标注的车辆进行9类中心聚类,得到聚类中心;
(3)学习率预热以及不定间隔调整组合方法;训练采用batch为64,在前1000次迭代中,对学习率进行预热,让学习率从0.001达到设定值0.004;在迭代次数达到10000次的时候,学习率降为0.001,在15000次时,学习率降为0.0001;在25000次时,学习率降为0.00001;在50000次时,学习率降为0.000001;
(4)Adam优化方法;动量因子momentum=0.949,权重衰减因子decay=0.0005;
在网络训练的每次迭代中,将经过雷视融合处理过的图片送入车辆多属性识别网络得到网络预测结果,然后通过步骤3.1中的损失函数,计算网络预测结果与该图片标注信息之间的损失值,随后回传损失值,更新网络参数,直至损失值稳定在0.5-0.6,停止训练,得到车辆多属性识别网络模型;
步骤4:检测、识别车辆多属性信息
在识别隧道中车辆多属性过程中,首先通过雷达检测到运动车辆的车辆距离和位置坐标,然后送入雷达信息与视觉信息在线融合部分,利用离线部分产生矩形框信息,如公式(1)和(2)所示,选取车辆感兴趣区域,然后根据感兴趣区域的位置信息生成一张单通道二值图像,随后与当前帧图像融合成一张3通道的融合图像,最后送入训练好的车辆多属性识别网络模型,得到车辆多属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110959048.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种液体粘滞系数测定系统及测定方法
- 下一篇:一种电网检测控制柜