[发明专利]一种基于卷积神经网络的单目视图的3D目标检测方法有效

申请号：	201911424210.2	申请日：	2019-12-31
公开（公告）号：	CN111369617B	公开（公告）日：	2022-06-21
发明（设计）人：	丁勇;罗述杰;李佳乐;孙阳阳;周一博	申请（专利权）人：	浙江大学
主分类号：	G06T7/70	分类号：	G06T7/70;G06V20/56;G06V10/82;G06N3/04;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	郑海峰
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于卷积神经网络目视目标检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于卷积神经网络的单目视图的3D目标检测方法，其特征在于包括如下步骤：

步骤(1).获取车载摄像头采集的单目视图作为训练样本图像，并对训练样本图像中的目标对象进行标注，标注信息包括：相机的标定矩阵P、目标对象在图像上2D边框的中心位置x_2d,y_2d和宽高w_2d,h_2d、以及3D边框的中心位置x_3d,y_3d,z_3d、长宽高l_3d,w_3d,h_3d和偏航角θ；

步骤(2).图像预处理：对训练样本图像的R、G、B通道分别进行中心化和标准化处理，公式如下：

X'＝X-X_mean (1)

X_s＝X'/X_std (2)

其中X是待预处理的图像，X_mean是所有训练样本图像的均值，X_std是所有训练样本图像的标准差；

步骤(3).构建卷积神经网络，使用预处理后的训练样本图像对卷积神经网络进行训练；所述卷积神经网络包括主干网络和网络输出分支；

所述主干网络一共采用18个卷积块，每个卷积块内部均为残差结构；卷积块的内部结构包含两个分支，其中第一分支依次经过3*3的卷积层、归一化层、ReLU激活函数、3*3的卷积层、归一化层，第二分支用于将该卷积块的输入变换为与第一分支的输出具有同样的尺寸；将第一分支和第二分支的输出的特征图相加作为所述卷积块的输出；

将卷积块i定义为神经网络中按次序的第i个卷积块，卷积块3和卷积块4构成第一卷积组，卷积块5、6、7、8构成第二卷积组，卷积块9至16构成第三卷积组，卷积块17和18构成第四卷积组；卷积块1、卷积块2、第一卷积组、第二卷积组、第三卷积组、第四卷积组中卷积的通道数分别为16、32、64、128、256、512，整个主干网络中采用的卷积核尺寸为3*3或1*1；在各个卷积组内部，不同层级的卷积层得到的特征图通过树状的结构依次进行融合，所述的树状结构具体为：每一个卷积组内部的前两个卷积块进行组内特征融合，并将融合结果输入到下一个卷积块，依次类推，得到包含浅层信息和深层信息的特征图；在不同的卷积组之间进行组间特征融合，组间特征融合的过程具体为：首先将前一组卷积组得到的特征图经过行卷积，然后再和后一个卷积组得到的特征进行融合；

所述的网络输出分支设置在主干网络后面，对于所需的每个输出设置1个分支，一共12个分支；每个分支内部依次为卷积核尺寸为3*3的卷积层、ReLU激活函数、卷积核尺寸为3*3的卷积层；所述的12个分支相对应的输出为：目标对象的置信度score，2D边框的中心位置x_2d,y_2d和宽高w_2d,h_2d以及3D边框的长宽高l_3d,w_3d,h_3d、观察角θ_l、中心位置的z坐标z_3d、中心位置在平面图像上的投影与2D边框中心的偏移量x_offset,y_offset；

利用训练集上标注的信息，计算出每张图像所对应的神经网络输出的真值，并以此监督卷积神经网络的学习；其中目标对象的置信度的设置方式为：当输出特征图上该处对应的原输入图像出现了目标对象，则设为1，否则为0；偏移量x_offset,y_offset的真值的计算方法如下：

x_offset＝u-x_2d (4)

y_offset＝v-y_2d (5)

其中P，即x_3d,y_3d,z_3d表示3D目标的中心点坐标，u,v表示3D目标的中心点在2D图像上的投影坐标，K矩阵表示相机的内参矩阵，通过相机厂商或者标定确定相机的内参矩阵；

所述观察角θ_l的真值的计算方式如下：

θ_l＝θ-θ_ray (6)

步骤(4).在使用阶段，将图片输入至步骤(3)训练好的卷积神经网络模型，输出相应的目标对象；使用非极大值抑制算法对神经网络输出的目标对象进行去重叠处理；

步骤(5).从步骤(4)得到的结果中，保留置信度前靠前的K’个目标对象，然后再选出置信度大于设定阈值t的目标对象；

步骤(6).根据步骤(5)筛选后的目标对象参数，利用摄像头标定矩阵计算每一个目标对象在3D空间中的具体位置：

根据相机模型：

其中P表示3D目标的中心点坐标，u,v表示3D目标的中心点在2D图像上的投影坐标，K矩阵表示相机的内参矩阵，通过相机厂商或者标定确定相机的内参矩阵；

所以：