[发明专利]一种基于深度学习的目标区域检测方法有效
申请号: | 201910099621.2 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109859190B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 张涛;郝兵;冯宇婷 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 目标 区域 检测 方法 | ||
1.一种基于深度学习的目标区域检测方法,其特征在于,包括以下步骤:
步骤1、获取带有标注的图像数据集,并对数据进行分析;
步骤2、利用图像增强技术,对所有正样本的数据进行预处理,以此增加样本的数量,以及丰富数据集的内容;
步骤3、用RetinaNet网络对经过预处理的正样本进行训练;
步骤4、RetinaNet本质上是由resnet+FPN+两个FCN子网络组成的网络结构,resnet为模型的主干网络;将主干网络替换为ResNeXt50和DenseNet,分别采用ResNeXt50和DenseNet进行模型检测,两个模型检测的结果进行模型融合,模型融合就是将两个模型输出的结果放在一块;对所有的预测框进行NMS非极大值抑制,IOU阈值设置为0.7,IOU的值就是两个预测框的交集除以两个预测框的并集的值,NMS就是对所有的框进行一一比较,如果两个框的交集大于IOU设置的阈值,则保留得分最大的框,删除另外的框。
2.根据权利要求1所述的一种基于深度学习的目标区域检测方法,其特征在于模型主干网络的改动;
ResNeXt50具体如下:通过网络拆分,4个卷积核一组,32个path的输出向量按照pixel-wise求和即所有通道对应位置点相加,然后再与输入的feature map相加;
DenseNet的模块结构具体如下:让网络中的每一层都直接与其前面层相连,实现特征的重复利用,同时网络的每一层只学习一个特征图。
3.根据权利要求1所述的一种基于深度学习的目标区域检测方法,其特征在于,模型FPN结构的改动:
自底向上其实就是网络的前向过程,在前向过程中,feature map的大小会发生改变;
自顶向下的过程采用上采样进行,而横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合;在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积,生成的feature map结果是P2,P3,P4,P5,和原来自底向上的卷积结果C2,C3,C4,C5一一对应;
对于P3,P4,P5,P6,P7这些层,定义anchor的大小为64*64,128*128,256*256,512*512,1024*1024,另外每个scale层都有3个长宽对比度:1∶2,1∶1,2∶1;所以整个特征金字塔有3*5=15种anchor;
网络的P3,P4,P5,P6,P7下面为两个分支,分类和回归;P3,P4,P5,P6,P7下面的分类和回归是相同的;这里传入的是一个50*50*2048的特征向量,其中卷积核为2048,卷积设计成3个卷积融合的形式,其中从左到右依次为1*3*12,3*3*12和3*1*12的卷积,这样卷积融合后总卷积核数仍然为36。
4.根据权利要求1所述的一种基于深度学习的目标区域检测方法,其特征在于,增加focal loss损失函数,focal Loss损失函数的计算公式FL(pt)=-αt(1-pt)γlog(pt),其中pt是不同类别的分类概率,γ=2、αt=0.25。
5.根据权利要求1所述的一种基于深度学习的目标区域检测方法,其特征在于,输入一张图像后首先进入训练集生成器,训练集生成器做了三件事;第一读取训练图片,第二对数据进行数据增强,负5到正5度的旋转,随机左右10%的翻转,随机改变亮度以及对比度,第三把图片缩放到800*800*3;
然后进入检测算法,从输入图像到c1做的操作依次为,一个7*7卷积核为64的卷积,batch normalization,Relu,3*3步长为2的最大池化;这时变为c1,c1的维度形式为200*200*64;c1到c2进行特征的升维,c2的维度形式为200*200*256;c2到c3,c3到c4,c4到c5进行了步长为2的最大池化,所以每次feature的宽高都变为了原来的一半;c5之后是1024*1024的全连接和一个softmax分类器,然后增加全局损失函数,全局损失函数使用focalloss损失函数;
接下来算法进入FPN的结构,c3,c4,c5分别通过一个1*1卷积核为256的卷积生成c3_reduced,c4_reduced,c5_reduced;c5_reduced进行一个双线性插值处理变为P5_upsampled,c4_reduced和P5_upsampled进行add卷积融合生成p4_merged;同样的方式,p4_merged进行一个双线性插值处理变为p4_upsampled,P4_upsampled的feature map的大小跟c3_reduced相同,c3_reduced和p4_upsampled进行add卷积融合生成p3_merged;p3,p4,p5分别由p3_merged,p4_merged,p5_upsampled经过一个3*3卷积核为256的卷积得到;p6由c5经过一个3*3卷积核为256的卷积得到,p7由p6经过一个3*3卷积核为256的卷积得到;
p3,p4,p5,p6,p7后面分别跟一个分类和一个回归的分支,每个分类和回归的分支是相同的;p3,p4,p5,p6,p7分别经过一个3*3卷积核为256的卷积后进入分类的分支,这时候的feature map为50*50*256,然后经过一个3*3卷积核为36周围补零的卷积,保持featuremap形状不变;最后进入特征归一化,把feature map的形状变为符合分类的格式;把之前的feature map变为维度为81的特征向量,进行分类;在回归层,p3,p4,p5,p6,p7分别经过一个3*3卷积核为256的卷积后进入回归的分支,回归分支从左到右依次为1*3*12,3*3*12和3*1*12的卷积,这样卷积融合后总的卷积核个数仍然为36,会把之前的feature map变为维度为4的特征向量进行回归。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910099621.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的年龄估计方法
- 下一篇:一种基于并行计算的像素筛查方法