[发明专利]用于图像目标检测处理的锚框生成方法及轻量级目标检测方法有效
申请号: | 202010889934.0 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112101430B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 饶云波;郭毅;程奕茗;薛俊民 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 图像 目标 检测 处理 生成 方法 轻量级 | ||
本发明公开了一种用于图像目标检测处理的锚框生成方法及轻量级目标检测方法,属于图像目标检测技术领域。本发明提出的锚框生成方式,基于自身数据集的不同,生成更适合自身应用场景的预选框,以代替当前基于锚点检测器的人工设置或K‑means生成方式;同时基于本发明的锚框生成方式提出了一种用于目标检测处理的轻量级目标检测方法,进而提升目标检测处理在计算量、FPS和复杂度等方面的检测性能。本发明在生成锚框生时,采用基于密度的方法对数据集中的真实盒进行聚类,以获得盒的最优长度和宽度,降低后续计算的复杂度。以及采用多尺度输出对不同尺度的物体进行预测,采取多层次输出检测结果;同时)利用分离卷积来改进基本卷积层,降低模型的复杂度。
技术领域
本发明属于图像目标检测技术领域,具体涉及一种基于深度学习的轻量级目标检测方案。
背景技术
目标检测是计算机视觉三大基础问题之一,在自动驾驶、图像/视频检索、视频监控等领域有着重要的应用,目标检测领域的研究具有十分重要的意义。在目标检测领域添加或改进的任何组件如果带来了新的计算瓶颈,在实际应用中,实际效果就会因场景不同而变化,往往会更糟。但是,如果对基本构件的改进能够在不影响再训练模型的情况下提高整个场景的有效性,那么这种改进将会被广泛接受,具有良好的应用前景。
在目标检测中,通常先设置一些候选框,然后通过网络逐层回归这些框。这些候选框应该具有代表性,能够广泛的代表实际场景中框的大小。否则,框将很难回归,最终的预测框也不适合真实框。在两阶段检测器Faster-RCNN(Faster R-CNN:Towards Real-timeObject Detection with Region Proposal Networks)中,手动设置长宽比和图像大小,设定锚框(锚盒),最终通过锚框生成种不同大小的候选框。在单阶段检测器YOLO(You OnlyLook Once)中,通过计算IoU(Intersection over Union),采用改进的K-means算法对数据集中的真实框进行聚类,最终生成若干组不同尺度的锚框,再把图片分成多个小格,在每个小格上通过锚框生成多个候选框。人工方法不具备解释性,也没有严格的数学证明。由于Faster-RCNN是基于多个锚点进行计算的,每个锚点在中心位置都会产生一个对应尺度的候选框,不具有代表性的高宽比会给后续计算带来额外的计算开销。目标检测模型需要在检测精度和检测速度之间进行权衡,轻量级网络需要降低模型的复杂度,为移动设备的部署做好准备。轻量级网络还需要输出不同大小的目标,过于简单,缺乏深度特征提取和融合的过程。
从Faster-RCNN提出锚框概念开始,大多数目标检测算法在生成候选框时都依赖于初始锚框的设置。而锚框的位置坐标信息为:(x1,y1,x2,y2),即表示锚框左上角和右下角的坐标。根据SPP-net(SPP-Net:Deep Absolute Pose Regression with SyntheticViews)和多尺度图像金字塔思想,反向得到足够的锚框。由于Faster-RCNN包含大量的锚点,每个锚点产生9个锚框,可以覆盖各种尺度和形状的目标。但是这种方法产生太多的锚框,导致冗余的框,如图1所示。
YOLO检测器使用K-means算法生成锚点,如图2所示。YOLO使用真实框大小作为聚类算法的输入。来自YOLO9000(YOLO9000:Better,Fater,Stronger)的结果如表1所示。
表1
以上两种算法都有不足之处:
1)锚点的生成方法来源于图像特征金字塔模型。锚的逻辑可以通过特征图的逆向计算来解释。但是,手动设置锚值生成的先验框不能很好地表示数据集中的真实框。对于手动设置的锚值,没有数学逻辑上的证明。
2)人工设置K个聚类中心,迭代更新聚类中心的值时,需要计算所有剩余点的IOU,计算量太大。
3)K-means在第一轮迭代中随机初始化聚类中心。且如果初始的聚类中心选择错误,将会非常耗时,甚至会影响最终的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010889934.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序