[发明专利]针对小目标检测的SSD模型优化方法有效
申请号: | 202010039805.2 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111209887B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 张文博;王凯;姬辛迪;段育松;高欣宇 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/25;G06V10/764;G06V10/774;G06V10/82;G06N3/045;G06N3/0464;G06N3/082;G06N3/084 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 侯琼;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 目标 检测 ssd 模型 优化 方法 | ||
本发明公开了一种针对小目标检测的SSD模型优化方法,主要解决SSD模型对小目标检测性能差的问题。其技术方案是:1)在SSD模型中加入FPN结构,构建基于多级特征金字塔网络FPN的SSD目标检测模型;2)去掉SSD目标检测模型中的在线困难样本挖掘OHEM,加入带权重的交叉熵损失函数;3)通过降低小目标正样本IOU筛选阈值,对小目标正样本进行过采样,利用经过筛选得到的小目标正负样本,对SSD目标检测模型进行训练;4)得到优化后的SSD目标检测模型。本发明在不降低SSD模型实时性的情况下有效提高了小目标检测鲁棒性,可在含有较多小目标且要求实时性的项目中获得较高的目标检测精度。
技术领域
本发明属于计算机视觉技术领域,进一步涉及基于深度学习的目标检测技术,具体为一种针对小目标检测的SSD模型优化方法,可用于完成数据中含有大量小目标的目标检测任务。
背景技术
目标检测是计算机视觉领域的基础研究课题,是图像分类与定位的结合,可用于无人驾驶、视频监控等领域,传统的目标检测方法通过滑动窗口进行区域选择和定位,然后利用支持向量机SVM(Support Vector Machine)等分类器对手工设计的特征进行分类。随着深度学习的发展,卷积神经网络在目标检测中取得了一系列研究成果。相比基于人工特征构造的传统目标检测算法,基于深度卷积神经网络的检测方法具有特征自动提取、泛化能力强的诸多优点,因此基于深度学习的目标检测方法成为目标检测领域的重要研究课题。
目前基于深度学习的目标检测方法主要分为两类,一类是两阶段目标检测模型,此类模型是基于候选区域的卷积神经网络模型,如R-CNN网络模型,R-CNN网络模型先通过选择性搜索算法提取候选边框,然后使用深度卷积神经网络对候选边框进行提取特征,最后使用SVM分类器进行分类,其检测速度较慢,达不到实时检测的要求。另一类是单阶段目标检测模型,此类模型是基于回归的卷积神经网络模型,如SSD网络模型,SSD网络模型将原图作为输入,利用卷积神经网络提取特征并构建多尺度特征图,浅层大尺度特征图检测相对较小的目标,而深层小尺度特征图则负责对大目标进行检测,每个特征图分别进行分类和回归,最后通过非极大值抑制NMS(Non-maximum suppression)得到最终检测结果,实现端对端的目标检测;SSD模型检测速度快,可实现实时检测,但对小目标检测的鲁棒性较差。
SSD模型对小目标检测鲁棒性差的原因主要有两个:一是SSD模型采用多尺度特征图预测,不同尺度特征图相互独立,其浅层特征图位置信息虽然较好,但语义信息不够丰富;二是小目标相比于大目标更容易产生正负样本不均衡的问题。
有很多学者针对SSD模型小目标检测鲁棒性差的问题提出了改进方法,例如:DSSD引入了ResNet-101代替了SSD中的VGG-16来增加卷积深度,并逐层将深层特征图反卷积后与浅层特征图进行融合;M2Det采用多级特征金字塔网络FPN(Feature Pyramid Networks)级联融合的方式增加特征图的信息量;这两种方法虽然都在不同程度上提高了小目标检测的鲁棒性,但同时大大增加了计算量、降低了检测速度,不能实现实时检测。
发明内容
本发明的目的在于针对SSD模型对小目标检测性能差的问题,提出一种针对小目标检测的SSD模型优化方法,通过在SSD模型中加入FPN结构,将模型的深层特征图进行上采样后与浅层特征图进行融合,再降低小目标正样本筛选中真实框和预测框的交并比阈值,即IOU筛选阈值,对小目标正样本进行过采样,最后去掉SSD模型中的难例挖掘OHEM,引入损失函数Focal Loss,从而在不降低SSD模型实时性的情况下有效提升小目标检测鲁棒性。
为实现上述目的,本发明采取的技术方案为:
(1)构建基于多级特征金字塔网络FPN的SSD目标检测模型;
(1.1)用骨干网络VGG-16生成六个特征图,设从第k个特征图开始构建多级特征金字塔网络FPN,且k=1,2,...,6,初始值为6;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010039805.2/2.html,转载请声明来源钻瓜专利网。