[发明专利]基于RetinaNet的多尺度单阶段目标检测方法在审
申请号: | 202310148143.6 | 申请日: | 2023-02-22 |
公开(公告)号: | CN115861772A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 陈滨;刘海宇;邵艳利;魏丹;王兴起 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/80;G06V10/30;G06V10/44;G06V10/77;G06V10/764;G06V10/766;G06N3/045;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 retinanet 尺度 阶段 目标 检测 方法 | ||
本发明公开了基于RetinaNet的多尺度单阶段目标检测方法。该方法将卷积块注意力模块添加到ResNet主干网络的残差模块中,使用改进后的ResNet网络进行多尺度特征提取。然后采用双向路径融合的特征金字塔,对提取到的不同尺度的特征信息进行融合,可以增大浅层特征层的语义信息占比,提高小目标包含的语义权重,同时增大采样过程中的感受野,加强多个尺度间的特征联系。最后将融合后的特征图使用完全交并比损失函数对检测目标进行筛选。本发明能够消除训练时的检测正负样本不均衡的问题,提高了小目标的检测率,检测结果可以用于完成人脸识别、物体分类等下游识别任务。
技术领域
本发明属于图像处理技术领域,涉及多尺度特征融合的图像检测方法,具体涉及一种基于RetinaNet模型的多尺度单阶段目标检测方法。
背景技术
目标检测的任务是确定某张给定图像中是否存在给定类别的目标实例,比如人、车、自行车、狗和猫;如果存在,就返回每个目标实例的空间位置和覆盖范围,常见的方式是返回一个边界框。作为图像理解和计算机视觉的基石,目标检测是解决分割、场景理解、目标追踪、图像描述、事件检测和活动识别等更复杂更高层次的视觉任务的基础。
早期目标检测方法都是采用人工设计的方式,首先输入图片,再经过背景提取分离出无关背景信息,接着对去除了背景的图像进行预处理,然后通过特征提取找到一些目标信息,通过阈值判定来找到感兴趣的目标,输出目标分类和位置并将背景更新,重复进行上述过程直到所有图像处理结束。传统方式的特征往往很难设计,而且对于一些条件可能不适应或者不具有鲁棒性,设计特征效率也很低。另外使用滑动窗口提取目标框,流程也非常耗时。在深度学习进入图像检测领域之后,卷积网络自主学习的方式完全代替了人工设计。
深度学习目标检测可以分为两个方向,单阶段目标检测算法和两阶段目标检测算法。单阶段目标检测算法通过主干网络直接给出物体的类别概率和位置坐标值,经过一次检测即可得出检测结果,代表算法有SSD、DSSD和RetinaNet。不同于传统方法中尽可能多的框选候选图像,两阶段目标检测算法在第一阶段生成稀疏的候选图像位置,在第二阶段利用卷积神经网络对候选图像分类,代表算法Faster R-CNN和Mask R-CNN。单阶段目标检测算法相对于两阶段目标检测算法,具有较快的实时检测速度和较低的计算复杂度。相较于人工设计的传统目标检测方法,使用了深度学习的目标检测算法在检测的种类和准确率上都有了显著的提升,但也存在着训练困难和错误识别等问题。
目前主流单阶段目标检测卷积网络通常采用RetinaNet作为主干网络,使用Focal损失函数消除类别不平衡和挖掘难分样本,运用特征金字塔网络(Feature PyramidNetwork,FPN)提取特征信息,并将每层特征信息都进行目标位置回归和类别分类,在检测精度和速度上取得一定的平衡。但提取的底层特征层缺少语义信息,深层特征缺乏位置信息,各个特征层间互不共享参数,特征层融合困难以及边界框回归计算不准确。
发明内容
本发明针对现有技术中单阶段目标检测方法存在的不足,提出了基于RetinaNet的多尺度单阶段目标检测方法,将卷积块注意力模块(CBAM)添加到ResNet主干网络中的残差模块中,抑制检测图片中的无关噪音,提高物体的检测精度。同时将特征金字塔的融合方式改为双向路径融合,增加特征层重要语义的权重,提高了小目标的检测效果,并使用完全交并比损失函数消除了正负样本不均衡带来的影响,进一步提高了对边缘和残缺目标的检测效果。
基于RetinaNet的多尺度单阶段目标检测方法,具体包括3个步骤。
步骤1:将卷积块注意力模块添加到ResNet主干网络中的残差模块中,使用改进后的ResNet网络进行特征提取,卷积块注意力模块的操作如下:
s1.1、首先将残差模块提取的特征图F按照通道进行最大池化和平均池化,再将结果分别送入一个三层感知器(Multilayer Perceptron,MLP),输出结果相加后送入Sigmoid激活函数,得到通道注意力模块的特征图MC:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310148143.6/2.html,转载请声明来源钻瓜专利网。