[发明专利]一种基于二维图片和三维点云融合的目标检测和追踪方法有效
申请号: | 202010466491.4 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111626217B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 邬松渊;赵捷 | 申请(专利权)人: | 宁波博登智能科技有限公司 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V20/64;G06V10/80;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 上海剑秋知识产权代理有限公司 31382 | 代理人: | 徐浩俊 |
地址: | 315048 浙江省宁波市高新区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 二维 图片 三维 融合 目标 检测 追踪 方法 | ||
本发明公开了一种基于二维图片和三维点云融合的目标检测和追踪方法,涉及领域自动驾驶的目标检测和追踪,包括以下步骤:S100、对DeepLabv3+模型进行预训练;S200、将三维点云数据转化为指定格式;S300、对指定格式的三维点云数据进行预处理;S400、对PointRCNN‑DeepLabv3+的模型进行训练;S500、实现目标状态更新和追踪。本发明使得每个激光数据点特征进行既包含空间信息同时也拥有图像语义分割结果,提升了PointRCNN的识别效果,提升了对目标较小且和环境相似度较高的行人目标识别准确率。
技术领域
本发明涉及自动驾驶的目标检测和追踪领域,尤其涉及一种基于二维图片和三维点云融合的目标检测和追踪方法。
背景技术
目前无人驾驶已经到了L3级落地的阶段,各个汽车主机厂,自动驾驶初创公司,以及汽车系统供应商和各大院校研发机构都已经将落地列为当前的工作重心。自动驾驶中最核心的功能模块是由感知层,决策层以及控制层组成。感知层主要组成部分有:激光雷达,毫米波雷达,视觉常感器等设备对于周边环境进行信息获取。无人驾驶上的检测系统根据采集进来的图像,三维点云等数据进行目标检测,场景分割等识别方法获得无人驾驶车对于周边环境的理解,从而可以实现诸如自主巡航、自动换道、交通标志识别、堵车自动驾驶、高速代驾等具体功能。不同于视觉传感器,激光雷达可以有效提升车辆对于外部环境感知建模的精准度。综合各种研究和实践操作,激光雷达在自动驾驶的关键技术主要分为三维点云分割、道路提取、环境建模、障碍物探测与追踪以及多种传感器的信息融合。由激光雷达生产的三维点云数据量每秒可达上百万个,普通的聚类算法无法满足数据实时性计算的要求。三维点云分割,是指为了快速提取有用的物体信息,根据三维点云分布的整体特征和局部特征,将三维点云进行分割,从而形成多个独立的子集。每个子集的期望是每个子集均对应将拥有物理意义的感知目标,并反映出目标物体的几何及位姿特征。三维点云分割,是保证激光雷达后续目标分类和跟踪性能的重要基础。目前基于深度学习的三维点云分割和物体检测的方法正在盛行。
一般情况下,深度神经网络要求输入信息具有规范化的格式,比如二维的图像,时序性的语音等。而原始的三维点云数据往往是空间中的一些无序点集,假设某一个三维点云中包含N个三维点,每一个点用(x,y,z)三维坐标表示,即使不考虑遮挡,视角等变化,单就这些点的先后顺序排列组合,就有N!种可能。因此,我们需要设计一个函数,使得函数值与输入数据的顺序无关。
而在实际的数据标注中,对于深度神经网络的训练需要大量标注过的数据。而目前市面上针对三维点云数据的标注大部分都是手动进行的。标注员工在操作时候会出现大量的错检、漏检、以及精度无法保证的情况。为了解决目前市面上的这个“痛点”,一种结合深度学习算法的自动标注工具就成了必须。
目前提出的三维点云目标识别方法总体可以被划分为基于网格识别方法和基于激光点识别方法两大类。基于网格识别方法将无序三维点转换为如3D体素或者2D鸟瞰特征等有序特征后,利用3D或者2D卷积神经网络进行3D目标识别。而针对基于网格识别方法在三维点云数据转换过程中信息损失的问题,目前主流的方式是利用多传感器相互融合,使得信息得以补充和纠正。例如正在被产业化的MV3D-Net,该模型融合了视觉和激光点云信息,和以往基于体素的方法不同,它仅仅通过三维点云的俯视图和前视图寻找目标感兴趣区域,并结合图像特征用于目标识别,该方法兼顾了计算复杂度和数据特征转换过程信息的损失。AVOD模型则是将三维点云鸟瞰视角和对应图像作为输入,并利用3D锚点网格图对于图像进行裁剪和缩放,对于模型输出的兴趣域进行特征融合,最终通过全连接网络获得目标识别结果。MMF则是利用激光雷达数据进行了两阶段处理,一方面是将原有的RGB图像信息引入深度特征,相互拼接后得到RGBD图像作为图像补充信息用于特征提取,另一方面则是将激光雷达数据转换为鸟瞰视角,通过深度网络提出粗略的兴趣区域,并将该区域内的激光点云特征和图像特征相互拼接融合用于边界框微调,获得更加准确的目标识别结果。ContFuse则是通过双流网络结构在多尺度、多传感器下对三维点云和图像进行深度连续融合,实现了高精度的三维空间目标检测定位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波博登智能科技有限公司,未经宁波博登智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010466491.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:移动式真空环保厕所
- 下一篇:位移最优的斜拉桥悬拼施工控制方法