[发明专利]一种基于深度学习的目标区域检测方法有效
申请号: | 201910099621.2 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109859190B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 张涛;郝兵;冯宇婷 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 目标 区域 检测 方法 | ||
一种基于深度学习的目标区域检测方法属于计算机视觉技术领域,该方法在主要采用了retinanet检测网络。RetinaNet本质上是由resnet+FPN+两个FCN子网络组成的网络结构。这里我把backbone分别采用ResNeXt50和densenet169而代替了之前的resnet。并对retnanet网络的FPN层以及loss损失函数进行了修改,最后进行了模型的融合。该目标检测方法结合了目前主流的目标检测方法的优点,并且已经解决了一系列实际的问题。本算法在coco2017下进行了实验,性能有非常好的表现。比retinanet下的单模型以及未对模型进行改进时的结果都要好。另外在其它数据集上也具有较好的表现。
技术领域
本发明属于计算机视觉技术领域,主要为深度学习图像检测方法的改进,涉及一些传统图像处理。
背景技术
随着人工智能的发展,计算机视觉的应用同样得到蓬勃的发展。在计算机视觉应用中,图像检测是重要的分支,图像目标检测在人脸识别,无人驾驶,无人零售,智能医疗等领域具有重要意义。
图像目标检测是计算机视觉中一个重要的研究方向,随着深度学习的发展,目标检测技术取得了非常大的进步。目标检测对于人类来说并不困难,通过对图片中不同颜色模块的感知很容易定位并分类出其中目标物体,但对于计算机来说,面对的是RGB像素矩阵,很难从图像中直接得到狗和猫这样的抽象概念并定位其位置,再加上有时候多个物体和杂乱的背景混杂在一起,目标检测更加困难。目标检测要解决的核心问题是:1.目标可能出现在图像的任何位置。2.目标有各种不同的大小。3.目标可能有各种不同的形状。为解决以上问题,深度学习目标检测领域出现了两个分支,双阶段和单阶段。双阶段模型中一个阶段提出备选框,一个阶段对备选框进行判断。主要为RCNN系列的网络,RCNN,Faster RCNN,Mask RCNN。单阶段的网络,整个生成备选框的过程是一体化的实现。代表有YOLO系列和SSD(single shot detector)。
发明内容
本发明要解决的技术问题是,提出一种基于深度学习的目标区域检测方法。该方法主要采用了RetinaNet检测网络。RetinaNet本质上是由resnet+FPN+两个FCN子网络组成的网络结构。这里我把主干网络分别采用ResNeXt50和densenet169代替了之前的resnet50。并在RetinaNet网络的FPN层新加了全局的loss损失函数,在回归的分支上进行改进,最后进行了模型的融合。具体方案如下所述。
数据层:
图像输入后首先进行图像的预处理,图像的预处理主要是对图像的清洗和图像的增强以及缩放。由于2017coco数据集是一个公开数据集较为干净,所以没有对图片进行删减。我们发现,图像的增强主要在对比度增强,裁剪,旋转,翻转,仿射变换方面对算法性能有更好的提升。并且通过实验我们发现,许多小剂量的图像增强对算法性能的提升更加显著。在coco数据集中我把旋转的角度设置为随机负5到正5度之间,翻转设置为图像随机左右10%,较小程度的随机改变亮度以及对比度。最后将图片缩放到一定尺寸,我们在coco数据集上缩放到800*800*3。
模型主干网络的改动:
ResNeXt50与resne50的区别如图6。图6的左边为resnet中的结构,输入的是一个256卷积核的feature map,经过1*1*64,3*3*64,1*1*256的卷积后(64,64,256是卷积核的个数),然后再与输入的feature map相加。右图为ResNeXt101中的结构,通过网络拆分,4个卷积核一组,提高了网络的分工和局部适应性,32个path的输出向量按照pixel-wise求和(所有通道对应位置点相加),然后再与输入的feature map相加。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910099621.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的年龄估计方法
- 下一篇:一种基于并行计算的像素筛查方法