[发明专利]基于多模态特征提取网络的目标检测方法、系统及设备在审
申请号: | 202211545086.7 | 申请日: | 2022-11-21 |
公开(公告)号: | CN116310669A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 吴珺;董佳明;聂万宇;吴俊伟;王江鹏;叶志伟 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/42;G06V10/764;G06N3/045;G06N3/0464;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 肖明洲 |
地址: | 430068 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 特征 提取 网络 目标 检测 方法 系统 设备 | ||
1.一种基于多模态特征提取网络的目标检测方法,其特征在于,包括以下步骤:
步骤1:获取待检测场景内的多模态数据,包括时间戳相关的图像和其他模态文本数据;所述其他模态文本数据包括温度、湿度和二氧化碳浓度;
步骤2:提取其他模态文本数据得到文本语义特征;
步骤3:根据文本语义特征,确定可能存在待检测目标范围;
步骤4:将待检测目标范围在相同时间戳的图像上生成预选框;
步骤5:将生成的预选框输入多模态特征提取网络中,进行特征提取,舍弃偏离预选框的锚框;
所述多模态特征提取网络,包括主干特征提取网络、加强特征提取网络和检测头三部分。
所述主干特征提取网络,包括五个Conv结构和四个C3结构以及一个SPPF结构,第一个卷积特征图输入时为分辨率320*320通道数为32,输出时特征图分辨率为160*160通道数为64,以此类推主干特征提取网络中特征图分辨率依次减小,通道数依次增大;C3结构为三个标准卷积由残差结构并联,目的是融合不同特征;SPPF结构由池化核为5*5的三个最大池化层串联,目的是融合多尺度的特征;
所述加强特征提取网络,包括自顶向下和自底向上的双特征金字塔,共进行了三次上采样和三次下采样,共包括四个Conv结果和四个C3结构;第一个特征金字塔每当特征图分别为20*20、40*40时,从主干特征提取网络特征图大小相同的C3结构中获得输出,两者相加进行采样;第二个特征金字塔与第一个特征金字塔类似,但不从主干特征提取网络中获取输出,而是从第一个特征金字塔中获取相同分辨率的特征图作为相加;
所述检测头部分,用于根据主干特征提取网络和加强特征提取网络最终获得的特征图在待检测图片上进行比较,找到与特征图相符的目标,并对其划定锚框,从而找到最终待检测目标;
步骤6:对生成锚框的目标根据回归损失函数CIOU准确进行分类,确定目标类别,获得检测结果。
2.根据权利要求1所述的基于多模态特征提取网络的目标检测方法,其特征在于:步骤1中,从t0时刻开始每隔一个固定的时间间隔t,获取多模态数据以及无人机拍摄的图像数据,两种数据在时间戳上一一对应。
3.根据权利要求1所述的基于多模态特征提取网络的目标检测方法,其特征在于:步骤2中,将所述其他模态文本数据输入文本特征提取网络,得到文本特征语义。
4.根据权利要求1所述的基于多模态特征提取网络的目标检测方法,其特征在于:步骤3中,将文本语义特征转化为时间戳对应的图像上的相对位置,并根据像素坐标系保存为相对坐标标签;结合待检测目标范围确定准则确定图像上的待检测区域。
5.根据权利要求1所述的基于多模态特征提取网络的目标检测方法,其特征在于:步骤4中,使用一阶目标检测算法对待检测目标进行检测,忽略中心锚点处在预选框外的锚框,获得精确的锚框。
6.根据权利要求1所述的基于多模态特征提取网络的目标检测方法,其特征在于:步骤6中,所述对生成锚框的目标根据YOLOv5算法将图片分为13*13个区域,在每个区域生成若干锚框,然后框体间根据回归损失函数CIOU计算置信度,最终使用NMS非极大抑制方法,提出置信度较小的框体,从而进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211545086.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种在线水分仪检定判别的方法
- 下一篇:一种氟马西尼中间体的制备方法