[发明专利]一种基于3D视觉的AI智能物体识别方法在审
申请号: | 202111135049.4 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113850195A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 黄会明;曹予飞;尹茂;曾敬勇;许理;陈伟;车建强 | 申请(专利权)人: | 杭州东信北邮信息技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06T17/00;G06T7/80;G06T7/70 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 ai 智能 物体 识别 方法 | ||
1.一种基于3D视觉的Al智能物体识别方法,其特征在于,包括有:
步骤一、建立虚拟三维坐标系,并以虚拟三维坐标系的原点为中心、对称的放置3个鱼眼相机,然后在每个鱼眼相机前设置一个棋盘格标定板;
步骤二、从每个棋盘格标定板上选取若干棋盘格角点作为特征点,获取这些特征点在虚拟三维坐标系下的三维坐标,并通过角点检测算法检测获得其二维坐标,然后采用PNP算法,利用每个鱼眼相机前的棋盘格标定板上的所有特征点的三维坐标和二维坐标,计算每个鱼眼相机从三维空间到二维空间的转换关系:旋转矩阵Rn和平移矩阵Tn,其中,n的值是1、2或3,Rn、Tn分别是第n个鱼眼相机的旋转矩阵、平移矩阵,Rn、Tn的计算公式如下:(ui,vi)是第i个特征点的二维坐标,(xi,yi,zi)是第i个特征点的三维坐标,Kn是第n个鱼眼相机的内参,fu、fv分别是鱼眼相机在图像的横轴和纵轴上的基于像素的焦距,u0、v0是鱼眼相机的主点在相机物理坐标系下的二维坐标;
步骤三、通过3个鱼眼相机的内参、旋转矩阵和平移矩阵,将3个相机统一到虚拟三维坐标系中,从而获得每个相机的图像和虚拟的三维空间之间的一一对应关系,然后根据所述对应关系将3个鱼眼相机采集的图像拼接成一个完整的360度范围的图像,即3D视觉图像;
步骤四、基于深度学习的方法,构建、并训练一个3D视觉图像识别网络,其输入是3D视觉产生的360度范围的图像数据,输出是从输入的3D视觉图像中识别出的物体信息,然后将步骤三获得的3D视觉图像输入训练后的3D视觉图像识别网络中,并将输出结果显示在3D视觉图像上。
2.根据权利要求1所述的方法,其特征在于,步骤四中,首先构建用于从3D视觉图像中识别物体的深度学习网络模型,即3D视觉图像识别网络,网络模型训练的输入为3D视觉产生的360度范围的图像数据,然后对图像数据中需要识别的物体进行标注,再将标注好的图像和物体标签作为训练样本输入网络模型中进行训练,从而获得最终训练后的3D视觉图像识别网络,最后将步骤三得到的3D视觉图像输入训练后的3D视觉图像识别网络中进行识别,并在3D视觉图像上标记出所识别出的物体的方位和类别信息。
3.根据权利要求1所述的方法,其特征在于,3D视觉图像识别网络由24层卷积层、4个最大池化层和2个全连接层组成,最后的输出是7x7x30,其中,7x7代表输入图像的7x7栅格,30的前10个代表2个包围盒的坐标以及对象的置信度,后20个代表VOC数据集的20个类别,每个grid有30维,这30维中,8维是回归盒的坐标,2维是包围盒的置信度,还有20维是类别,图像坐标对应网格的偏置量归一化到0-1之间,图像的宽度和高度也归一化到0-1之间,并采用平方和损失模型作为损失函数来进行处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州东信北邮信息技术有限公司,未经杭州东信北邮信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111135049.4/1.html,转载请声明来源钻瓜专利网。