[发明专利]一种多模态弱监督三维目标检测方法、系统及设备在审
申请号: | 202211435079.1 | 申请日: | 2022-11-16 |
公开(公告)号: | CN115731542A | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | 马惠敏;刘海壮;王艺霖;王荣全 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06V20/64 | 分类号: | G06V20/64;G06V20/70;G06V10/26;G06V10/30;G06V10/766;G06V10/80;G06V10/82 |
代理公司: | 北京恒律知识产权代理有限公司 11416 | 代理人: | 张朝辉 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多模态弱 监督 三维 目标 检测 方法 系统 设备 | ||
1.一种多模态弱监督三维目标检测方法,其特征在于,包括:
利用摄像头拍摄多张2D RGB图像,并基于每一张所述2D RGB图像上的二维框标注生成三维视锥;
在所述三维视锥中,滤除车辆激光雷达传感器采集的三维点云中的地面点,并依靠种子点区域生长方法,确定滤除后的三维视锥中三维点数目最多的区域;
基于密度的三维参数估计方法,利用主控芯片,根据每个滤除后的三维视锥中三维点数目最多的区域生成物体的三维伪标注框;所述物体为行人或自行车;
利用所述主控芯片,以所述三维伪标注框为目标,根据所述2D RGB图像以及所述三维点云训练多模态超像素双分支网络,生成训练后的多模态超像素双分支网络;
获取所述摄像头拍摄的当前帧的2D RGB图像以及所述车辆激光雷达传感器采集的当前场景的三维点云,并将所述当前帧的2D RGB图像以及所述当前场景的三维点云输入至所述训练后的多模态超像素双分支网络中,生成当前场景的三维物体预测框;所述三维物体预测框用于定位所述车辆周围的物体,预测当前车辆周围物体的尺寸以及朝向。
2.根据权利要求1所述的多模态弱监督三维目标检测方法,其特征在于,所述基于密度的三维参数估计方法,利用主控芯片,根据每个滤除后的三维视锥中三维点数目最多的区域生成物体的三维伪标注框,具体包括:
滤除所述三维点数目最多的区域中的黏连噪声点云,生成滤除后的三维点云;
采用迭代式搜索所述滤除后的三维点云的俯视图旋转框,渐进删除所述滤除后的三维点云中最低的点云密度,直到关键点位置保持不变,退出迭代,生成所述滤除后的三维点云的俯视图旋转框;所述关键点为所述旋转框的四个角点中包含最多三维点的角点;
将所述关键点向所述滤除后的三维视锥的两侧进行扩张,同时利用所述物体的统计信息约束扩张长度,以长边的向量方向作为所述物体的实际朝向,生成三维伪标注框。
3.根据权利要求2所述的多模态弱监督三维目标检测方法,其特征在于,所述利用所述主控芯片,以所述三维伪标注框为目标,根据所述2D RGB图像以及所述三维点云训练多模态超像素双分支网络,生成训练后的多模态超像素双分支网络,具体包括:
利用局部一致性先验,将二维中局部像素块与三维中的一个点在空间上对应,生成投影关系;
采用ResNet50提取所述2D RGB图像的图像特征图,并将所述图像特征图上采样到与输入图像的尺寸一致;所述输入图像为任一所述2D RGB图像;
对所述输入图像进行超像素分割,根据超像素分割结果在所述图像特征图上求取各个超像素特征;
根据所述投影关系将所述超像素特征赋值至各个三维点;
采用三维卷积提取点云初始特征以及带有超像素特征的三维点的点云特征,并将所述点云特征投影至俯视图中生成俯视特征图;
融合所述俯视特征图中的点云特征与所述点云初始特征,生成融合特征;
采用所述融合特征为目标分类的特征,训练多模态超像素双分支网络,生成训练后的多模态超像素双分支网络。
4.根据权利要求3所述的多模态弱监督三维目标检测方法,其特征在于,还包括:
在所述多模态超像素双分支网络的训练过程中,采用随机丢弃超像素特征的训练方法训练所述多模态超像素双分支网络,以0填充丢弃的超像素特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211435079.1/1.html,转载请声明来源钻瓜专利网。